Residuo di devianza

Indice dei contenuti

    Il residuo di devianza è un residuo diagnostico usato soprattutto nei modelli lineari generalizzati. Misura quanto una singola osservazione contribuisce alla devianza statistica, cioè alla distanza tra il modello stimato e il modello saturo che riproduce esattamente i dati.

    Se \ell(y;y) è la log-verosimiglianza del modello saturo e \ell(\widehat\mu;y) è la log-verosimiglianza del modello stimato, la devianza totale è

    D = 2\{\ell(y;y)-\ell(\widehat\mu;y)\} = \sum_i d_i.

    La componente d_i misura il contributo dell’osservazione i. Il residuo di devianza assegna a questa componente il segno dello scarto osservato-stimato:

    r_i^D = \operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}.

    In questo modo r_i^D conserva sia la grandezza del disadattamento locale sia la direzione: positivo quando il dato osservato è superiore alla media stimata, negativo quando è inferiore.

    Definizione

    OggettoFormulaSignificato
    Osservazione\displaystyle y_iValore osservato della risposta.
    Media stimata\displaystyle \widehat\mu_iValore atteso dal modello per l’osservazione \displaystyle i.
    Log-verosimiglianza satura\displaystyle \ell_i(y_i;y_i)Miglior adattamento locale possibile per il dato osservato.
    Log-verosimiglianza stimata\displaystyle \ell_i(\widehat\mu_i;y_i)Adattamento locale prodotto dal modello stimato.
    Contributo di devianza\displaystyle d_i=2\{\ell_i(y_i;y_i)-\ell_i(\widehat\mu_i;y_i)\}Perdita locale rispetto al modello saturo.
    Residuo di devianza\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}Radice firmata della perdita locale.

    Il quadrato del residuo di devianza recupera la componente locale della devianza:

    (r_i^D)^2=d_i.

    Per questo una singola osservazione con \lvert r_i^D\rvert elevato contribuisce molto alla devianza totale del modello.

    Lettura diagnostica

    SegnaleQuantitàInterpretazione
    Residuo positivo\displaystyle r_i^D>0Il modello sottostima l’osservazione.
    Residuo negativo\displaystyle r_i^D<0Il modello sovrastima l’osservazione.
    Residuo vicino a zero\displaystyle r_i^D\approx0L’osservazione è ben spiegata dal modello.
    Contributo locale\displaystyle (r_i^D)^2=d_iPeso dell’osservazione nella devianza totale.
    Somma globale\displaystyle D=\sum_i(r_i^D)^2Disadattamento complessivo rispetto al modello saturo.

    La scala dei residui di devianza è utile per individuare osservazioni non ben spiegate, ma non autorizza cancellazioni automatiche. Un residuo grande richiede controllo del dato, del modello, del link, della famiglia di distribuzione e di eventuali punti influenti.

    Forme comuni nei GLM

    Le formule cambiano con la famiglia distributiva. La tabella riassume alcune forme frequenti, usando sempre il residuo firmato r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}.

    ModelloComponente di devianzaNota operativa
    Gaussiano\displaystyle d_i=(y_i-\widehat\mu_i)^2Il residuo di devianza coincide con il residuo ordinario, a fattori di scala.
    Poisson\displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\}Per conteggi; se \displaystyle y_i=0, il termine \displaystyle y_i\log(y_i/\widehat\mu_i) si prende nullo.
    Bernoulli\displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\}Per risposta binaria, con \displaystyle \widehat p_i=P(Y_i=1).
    Gamma\displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\}Per risposte positive continue, con attenzione agli zeri non ammessi.

    In regressione di Poisson, un residuo di devianza molto alto può indicare conteggi non compatibili con la media stimata, sovradispersione o covariate mancanti. In regressione logistica, residui elevati segnalano osservazioni binarie poco coerenti con la probabilità stimata.

    Confronto con il residuo di Pearson

    Il residuo di Pearson e il residuo di devianza sono entrambi residui standardizzati per modelli non gaussiani, ma rispondono a domande leggermente diverse.

    AspettoResiduo di PearsonResiduo di devianza
    Idea\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}}\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}
    ScalaVarianza locale prevista dal modello.Perdita locale di log-verosimiglianza.
    Somma globale\displaystyle X_P^2=\sum_i(r_i^P)^2\displaystyle D=\sum_i(r_i^D)^2
    Uso tipicoControllo di dispersione e scarti sulla scala media-varianza.Diagnostica di adattamento rispetto al modello saturo.
    SensibilitàPiù legato alla funzione di varianza.Più legato alla forma della verosimiglianza.

    Nei grandi campioni i due strumenti spesso raccontano una storia simile. Nei dati sparsi, nei conteggi piccoli o vicino ai bordi della risposta binaria, possono invece evidenziare aspetti diversi dello stesso disadattamento.

    Errori comuni

    • Trattarlo come un residuo ordinario: nei GLM il residuo di devianza deriva dalla log-verosimiglianza, non solo dalla differenza y_i-\widehat\mu_i.
    • Dimenticare il segno: la devianza è sempre non negativa, ma il residuo di devianza reintroduce il segno dello scarto.
    • Confrontare famiglie diverse senza cautela: la formula di d_i dipende dalla distribuzione scelta.
    • Ignorare la dispersione: residui elevati in massa possono segnalare sovradispersione, non soltanto singoli dati anomali.
    • Usarlo da solo: per una diagnosi completa va letto insieme a residui di Pearson, leverage, distanza di Cook e analisi del modello.

    Vedi anche: devianza statistica, residuo di Pearson, sovradispersione, residuo standardizzato, modello lineare generalizzato, regressione di Poisson, regressione logistica, verosimiglianza, massima verosimiglianza.

    Pubblicato: