Residuo di devianza — ingegnerismo.it

Il residuo di devianza è un residuo diagnostico usato soprattutto nei modelli lineari generalizzati. Misura quanto una singola osservazione contribuisce alla devianza statistica, cioè alla distanza tra il modello stimato e il modello saturo che riproduce esattamente i dati.

Se $\ell(y;y)$ è la log-verosimiglianza del modello saturo e $\ell(\widehat\mu;y)$ è la log-verosimiglianza del modello stimato, la devianza totale è

D = 2\{\ell(y;y)-\ell(\widehat\mu;y)\} = \sum_i d_i.

La componente $d_i$ misura il contributo dell’osservazione $i$ . Il residuo di devianza assegna a questa componente il segno dello scarto osservato-stimato:

r_i^D = \operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}.

In questo modo $r_i^D$ conserva sia la grandezza del disadattamento locale sia la direzione: positivo quando il dato osservato è superiore alla media stimata, negativo quando è inferiore.

Definizione

Oggetto	Formula	Significato
Osservazione	$\displaystyle y_i$	Valore osservato della risposta.
Media stimata	$\displaystyle \widehat\mu_i$	Valore atteso dal modello per l’osservazione $\displaystyle i$ .
Log-verosimiglianza satura	$\displaystyle \ell_i(y_i;y_i)$	Miglior adattamento locale possibile per il dato osservato.
Log-verosimiglianza stimata	$\displaystyle \ell_i(\widehat\mu_i;y_i)$	Adattamento locale prodotto dal modello stimato.
Contributo di devianza	$\displaystyle d_i=2\{\ell_i(y_i;y_i)-\ell_i(\widehat\mu_i;y_i)\}$	Perdita locale rispetto al modello saturo.
Residuo di devianza	$\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}$	Radice firmata della perdita locale.

Il quadrato del residuo di devianza recupera la componente locale della devianza:

(r_i^D)^2=d_i.

Per questo una singola osservazione con $\lvert r_i^D\rvert$ elevato contribuisce molto alla devianza totale del modello.

Lettura diagnostica

Segnale	Quantità	Interpretazione
Residuo positivo	$\displaystyle r_i^D>0$	Il modello sottostima l’osservazione.
Residuo negativo	$\displaystyle r_i^D<0$	Il modello sovrastima l’osservazione.
Residuo vicino a zero	$\displaystyle r_i^D\approx0$	L’osservazione è ben spiegata dal modello.
Contributo locale	$\displaystyle (r_i^D)^2=d_i$	Peso dell’osservazione nella devianza totale.
Somma globale	$\displaystyle D=\sum_i(r_i^D)^2$	Disadattamento complessivo rispetto al modello saturo.

La scala dei residui di devianza è utile per individuare osservazioni non ben spiegate, ma non autorizza cancellazioni automatiche. Un residuo grande richiede controllo del dato, del modello, del link, della famiglia di distribuzione e di eventuali punti influenti.

Forme comuni nei GLM

Le formule cambiano con la famiglia distributiva. La tabella riassume alcune forme frequenti, usando sempre il residuo firmato $r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}$ .

Modello	Componente di devianza	Nota operativa
Gaussiano	$\displaystyle d_i=(y_i-\widehat\mu_i)^2$	Il residuo di devianza coincide con il residuo ordinario, a fattori di scala.
Poisson	$\displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\}$	Per conteggi; se $\displaystyle y_i=0$ , il termine $\displaystyle y_i\log(y_i/\widehat\mu_i)$ si prende nullo.
Bernoulli	$\displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\}$	Per risposta binaria, con $\displaystyle \widehat p_i=P(Y_i=1)$ .
Gamma	$\displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\}$	Per risposte positive continue, con attenzione agli zeri non ammessi.

In regressione di Poisson, un residuo di devianza molto alto può indicare conteggi non compatibili con la media stimata, sovradispersione o covariate mancanti. In regressione logistica, residui elevati segnalano osservazioni binarie poco coerenti con la probabilità stimata.

Confronto con il residuo di Pearson

Il residuo di Pearson e il residuo di devianza sono entrambi residui standardizzati per modelli non gaussiani, ma rispondono a domande leggermente diverse.

Aspetto	Residuo di Pearson	Residuo di devianza
Idea	$\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}}$	$\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}$
Scala	Varianza locale prevista dal modello.	Perdita locale di log-verosimiglianza.
Somma globale	$\displaystyle X_P^2=\sum_i(r_i^P)^2$	$\displaystyle D=\sum_i(r_i^D)^2$
Uso tipico	Controllo di dispersione e scarti sulla scala media-varianza.	Diagnostica di adattamento rispetto al modello saturo.
Sensibilità	Più legato alla funzione di varianza.	Più legato alla forma della verosimiglianza.

Nei grandi campioni i due strumenti spesso raccontano una storia simile. Nei dati sparsi, nei conteggi piccoli o vicino ai bordi della risposta binaria, possono invece evidenziare aspetti diversi dello stesso disadattamento.

Errori comuni

Trattarlo come un residuo ordinario: nei GLM il residuo di devianza deriva dalla log-verosimiglianza, non solo dalla differenza $y_i-\widehat\mu_i$ .
Dimenticare il segno: la devianza è sempre non negativa, ma il residuo di devianza reintroduce il segno dello scarto.
Confrontare famiglie diverse senza cautela: la formula di $d_i$ dipende dalla distribuzione scelta.
Ignorare la dispersione: residui elevati in massa possono segnalare sovradispersione, non soltanto singoli dati anomali.
Usarlo da solo: per una diagnosi completa va letto insieme a residui di Pearson, leverage, distanza di Cook e analisi del modello.

Vedi anche: devianza statistica, residuo di Pearson, sovradispersione, residuo standardizzato, modello lineare generalizzato, regressione di Poisson, regressione logistica, verosimiglianza, massima verosimiglianza.