Il residuo di devianza è un residuo diagnostico usato soprattutto nei modelli lineari generalizzati. Misura quanto una singola osservazione contribuisce alla devianza statistica, cioè alla distanza tra il modello stimato e il modello saturo che riproduce esattamente i dati.
Se \ell(y;y) è la log-verosimiglianza del modello saturo e \ell(\widehat\mu;y) è la log-verosimiglianza del modello stimato, la devianza totale è
La componente d_i misura il contributo dell’osservazione i. Il residuo di devianza assegna a questa componente il segno dello scarto osservato-stimato:
In questo modo r_i^D conserva sia la grandezza del disadattamento locale sia la direzione: positivo quando il dato osservato è superiore alla media stimata, negativo quando è inferiore.
Definizione
| Oggetto | Formula | Significato |
|---|---|---|
| Osservazione | \displaystyle y_i | Valore osservato della risposta. |
| Media stimata | \displaystyle \widehat\mu_i | Valore atteso dal modello per l’osservazione \displaystyle i. |
| Log-verosimiglianza satura | \displaystyle \ell_i(y_i;y_i) | Miglior adattamento locale possibile per il dato osservato. |
| Log-verosimiglianza stimata | \displaystyle \ell_i(\widehat\mu_i;y_i) | Adattamento locale prodotto dal modello stimato. |
| Contributo di devianza | \displaystyle d_i=2\{\ell_i(y_i;y_i)-\ell_i(\widehat\mu_i;y_i)\} | Perdita locale rispetto al modello saturo. |
| Residuo di devianza | \displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i} | Radice firmata della perdita locale. |
Il quadrato del residuo di devianza recupera la componente locale della devianza:
Per questo una singola osservazione con \lvert r_i^D\rvert elevato contribuisce molto alla devianza totale del modello.
Lettura diagnostica
| Segnale | Quantità | Interpretazione |
|---|---|---|
| Residuo positivo | \displaystyle r_i^D>0 | Il modello sottostima l’osservazione. |
| Residuo negativo | \displaystyle r_i^D<0 | Il modello sovrastima l’osservazione. |
| Residuo vicino a zero | \displaystyle r_i^D\approx0 | L’osservazione è ben spiegata dal modello. |
| Contributo locale | \displaystyle (r_i^D)^2=d_i | Peso dell’osservazione nella devianza totale. |
| Somma globale | \displaystyle D=\sum_i(r_i^D)^2 | Disadattamento complessivo rispetto al modello saturo. |
La scala dei residui di devianza è utile per individuare osservazioni non ben spiegate, ma non autorizza cancellazioni automatiche. Un residuo grande richiede controllo del dato, del modello, del link, della famiglia di distribuzione e di eventuali punti influenti.
Forme comuni nei GLM
Le formule cambiano con la famiglia distributiva. La tabella riassume alcune forme frequenti, usando sempre il residuo firmato r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}.
| Modello | Componente di devianza | Nota operativa |
|---|---|---|
| Gaussiano | \displaystyle d_i=(y_i-\widehat\mu_i)^2 | Il residuo di devianza coincide con il residuo ordinario, a fattori di scala. |
| Poisson | \displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\} | Per conteggi; se \displaystyle y_i=0, il termine \displaystyle y_i\log(y_i/\widehat\mu_i) si prende nullo. |
| Bernoulli | \displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\} | Per risposta binaria, con \displaystyle \widehat p_i=P(Y_i=1). |
| Gamma | \displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\} | Per risposte positive continue, con attenzione agli zeri non ammessi. |
In regressione di Poisson, un residuo di devianza molto alto può indicare conteggi non compatibili con la media stimata, sovradispersione o covariate mancanti. In regressione logistica, residui elevati segnalano osservazioni binarie poco coerenti con la probabilità stimata.
Confronto con il residuo di Pearson
Il residuo di Pearson e il residuo di devianza sono entrambi residui standardizzati per modelli non gaussiani, ma rispondono a domande leggermente diverse.
| Aspetto | Residuo di Pearson | Residuo di devianza |
|---|---|---|
| Idea | \displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}} | \displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i} |
| Scala | Varianza locale prevista dal modello. | Perdita locale di log-verosimiglianza. |
| Somma globale | \displaystyle X_P^2=\sum_i(r_i^P)^2 | \displaystyle D=\sum_i(r_i^D)^2 |
| Uso tipico | Controllo di dispersione e scarti sulla scala media-varianza. | Diagnostica di adattamento rispetto al modello saturo. |
| Sensibilità | Più legato alla funzione di varianza. | Più legato alla forma della verosimiglianza. |
Nei grandi campioni i due strumenti spesso raccontano una storia simile. Nei dati sparsi, nei conteggi piccoli o vicino ai bordi della risposta binaria, possono invece evidenziare aspetti diversi dello stesso disadattamento.
Errori comuni
- Trattarlo come un residuo ordinario: nei GLM il residuo di devianza deriva dalla log-verosimiglianza, non solo dalla differenza y_i-\widehat\mu_i.
- Dimenticare il segno: la devianza è sempre non negativa, ma il residuo di devianza reintroduce il segno dello scarto.
- Confrontare famiglie diverse senza cautela: la formula di d_i dipende dalla distribuzione scelta.
- Ignorare la dispersione: residui elevati in massa possono segnalare sovradispersione, non soltanto singoli dati anomali.
- Usarlo da solo: per una diagnosi completa va letto insieme a residui di Pearson, leverage, distanza di Cook e analisi del modello.
Vedi anche: devianza statistica, residuo di Pearson, sovradispersione, residuo standardizzato, modello lineare generalizzato, regressione di Poisson, regressione logistica, verosimiglianza, massima verosimiglianza.