Devianza (statistica)

Indice dei contenuti

    La devianza, nel contesto dei modelli lineari generalizzati, misura quanto il modello stimato perde rispetto al modello saturo, cioè al modello che adatta perfettamente ogni osservazione. È una misura di disadattamento basata sulla verosimiglianza, non una semplice somma di scarti quadratici.

    Se \ell_{\mathrm{sat}} è la log-verosimiglianza del modello saturo e \ell(\widehat\theta) è la log-verosimiglianza del modello stimato, la devianza è

    D = 2\{\ell_{\mathrm{sat}}-\ell(\widehat\theta)\}.

    Valori piccoli indicano che il modello stimato è vicino al modello saturo; valori grandi indicano perdita di adattamento. In italiano il termine “devianza” può indicare anche una somma di scarti quadratici in statistica descrittiva o ANOVA. In questa voce si usa il significato proprio dei GLM e della teoria della verosimiglianza.

    Definizione nei GLM

    OggettoFormulaSignificato
    Log-verosimiglianza satura\displaystyle \ell_{\mathrm{sat}}Valore massimo ottenuto dal modello che riproduce esattamente i dati.
    Log-verosimiglianza stimata\displaystyle \ell(\widehat\theta)Valore massimo ottenuto dal modello effettivamente stimato.
    Devianza\displaystyle D=2\{\ell_{\mathrm{sat}}-\ell(\widehat\theta)\}Perdita di log-verosimiglianza rispetto al modello saturo, moltiplicata per due.
    Modello ben adattato\displaystyle D\approx0Il modello stimato è vicino al modello saturo.
    Modello mal adattato\displaystyle D\gg0Il modello perde molta verosimiglianza rispetto al saturo.

    La moltiplicazione per 2 non è ornamentale: rende le differenze di devianza confrontabili con statistiche di rapporto di verosimiglianza e, in condizioni regolari, con distribuzioni chi-quadro asintotiche.

    Devianza residua e devianza nulla

    Nei software statistici compaiono spesso devianza residua e devianza nulla. La prima riguarda il modello stimato con i predittori; la seconda riguarda un modello base con sola intercetta.

    QuantitàFormulaLettura
    Devianza residua\displaystyle D_{\mathrm{res}}=2\{\ell_{\mathrm{sat}}-\ell_{\mathrm{fit}}\}Disadattamento del modello stimato.
    Devianza nulla\displaystyle D_0=2\{\ell_{\mathrm{sat}}-\ell_0\}Disadattamento del modello con sola intercetta.
    Riduzione di devianza\displaystyle D_0-D_{\mathrm{res}}=2\{\ell_{\mathrm{fit}}-\ell_0\}Quanta perdita viene recuperata aggiungendo i predittori.
    Gradi di libertà residui\displaystyle n-pNumero di osservazioni meno parametri stimati.
    Gradi di libertà del confronto\displaystyle p_{\mathrm{full}}-p_{\mathrm{red}}Parametri aggiunti tra modello ridotto e modello completo.

    La riduzione di devianza è l’analogo, nei GLM, del miglioramento di adattamento quando si passa da un modello più semplice a uno più ricco.

    Confronto tra modelli

    Per due modelli annidati, uno ridotto e uno completo, la differenza di devianza coincide con una statistica di test del rapporto di verosimiglianza:

    \Delta D = D_{\mathrm{red}}-D_{\mathrm{full}} = 2\{\ell_{\mathrm{full}}-\ell_{\mathrm{red}}\}.

    Se il modello ridotto è corretto e valgono le ipotesi regolari, allora \Delta D è approssimativamente chi-quadro con gradi di libertà pari al numero di parametri aggiunti.

    CasoStatisticaInterpretazione
    Modello completo migliora poco\displaystyle \Delta D\approx0I predittori aggiunti spiegano poca perdita residua.
    Modello completo migliora molto\displaystyle \Delta D\gg0I predittori aggiunti recuperano molta verosimiglianza.
    Test asintotico\displaystyle \Delta D\sim\chi^2_{\Delta p}Approssimazione valida sotto ipotesi regolari e campioni adeguati.
    Campioni piccoli o separazione\displaystyle \Delta D instabileL’approssimazione chi-quadro può essere fragile.

    La devianza non misura automaticamente la bontà predittiva fuori campione. Per scegliere modelli a scopo predittivo servono anche validazione, penalizzazione della complessità e controllo dei residui.

    Forme per famiglie comuni

    La devianza totale è somma di contributi locali:

    D=\sum_i d_i.

    Le componenti d_i dipendono dalla famiglia distributiva scelta.

    FamigliaContributo di devianzaNota
    Gaussiana\displaystyle d_i=(y_i-\widehat\mu_i)^2Ritorna alla logica degli scarti quadratici.
    Poisson\displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\}Per conteggi; se \displaystyle y_i=0, il termine \displaystyle y_i\log(y_i/\widehat\mu_i) è nullo.
    Bernoulli\displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\}Per risposta binaria stimata con probabilità \displaystyle \widehat p_i.
    Gamma\displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\}Per risposte positive continue.

    Queste formule spiegano perché i residui di devianza sono radici firmate dei contributi locali: conservano l’informazione individuale che, sommata al quadrato, ricostruisce la devianza globale.

    Relazione con residui e dispersione

    StrumentoFormula globaleUso
    Devianza\displaystyle D=\sum_i d_iMisura il disadattamento rispetto al modello saturo.
    Residuo di devianza\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}Localizza le osservazioni che contribuiscono alla devianza.
    Statistica di Pearson\displaystyle X_P^2=\sum_i(r_i^P)^2Controlla lo scarto sulla scala media-varianza.
    Rapporto di dispersione\displaystyle D/(n-p)Segnale descrittivo di possibile sottoadattamento o sovradispersione.

    In un modello ben specificato, devianza e statistica di Pearson dovrebbero essere compatibili con i gradi di libertà residui, almeno in senso asintotico. Valori molto maggiori dei gradi di libertà possono indicare sovradispersione, dipendenze non modellate o famiglia distributiva sbagliata.

    Errori comuni

    • Confonderla con la devianza ANOVA: nel linguaggio GLM la devianza è una distanza di log-verosimiglianza dal modello saturo.
    • Leggere solo il valore assoluto: una devianza grande va confrontata con gradi di libertà, modello nullo, modelli alternativi e contesto dei dati.
    • Usarla come metrica predittiva universale: misura adattamento in-sample, non garantisce generalizzazione.
    • Applicare meccanicamente il chi-quadro: campioni piccoli, dati sparsi, separazione logistica e parametri al bordo possono rompere l’approssimazione.
    • Ignorare i residui locali: una devianza globale accettabile può nascondere osservazioni singole problematiche.

    Vedi anche: residuo di devianza, residuo di Pearson, sovradispersione, modello lineare generalizzato, test del rapporto di verosimiglianza, verosimiglianza, massima verosimiglianza.

    Pubblicato: