Devianza (statistica) — ingegnerismo.it

La devianza, nel contesto dei modelli lineari generalizzati, misura quanto il modello stimato perde rispetto al modello saturo, cioè al modello che adatta perfettamente ogni osservazione. È una misura di disadattamento basata sulla verosimiglianza, non una semplice somma di scarti quadratici.

Se $\ell_{\mathrm{sat}}$ è la log-verosimiglianza del modello saturo e $\ell(\widehat\theta)$ è la log-verosimiglianza del modello stimato, la devianza è

D = 2\{\ell_{\mathrm{sat}}-\ell(\widehat\theta)\}.

Valori piccoli indicano che il modello stimato è vicino al modello saturo; valori grandi indicano perdita di adattamento. In italiano il termine “devianza” può indicare anche una somma di scarti quadratici in statistica descrittiva o ANOVA. In questa voce si usa il significato proprio dei GLM e della teoria della verosimiglianza.

Definizione nei GLM

Oggetto	Formula	Significato
Log-verosimiglianza satura	$\displaystyle \ell_{\mathrm{sat}}$	Valore massimo ottenuto dal modello che riproduce esattamente i dati.
Log-verosimiglianza stimata	$\displaystyle \ell(\widehat\theta)$	Valore massimo ottenuto dal modello effettivamente stimato.
Devianza	$\displaystyle D=2\{\ell_{\mathrm{sat}}-\ell(\widehat\theta)\}$	Perdita di log-verosimiglianza rispetto al modello saturo, moltiplicata per due.
Modello ben adattato	$\displaystyle D\approx0$	Il modello stimato è vicino al modello saturo.
Modello mal adattato	$\displaystyle D\gg0$	Il modello perde molta verosimiglianza rispetto al saturo.

La moltiplicazione per $2$ non è ornamentale: rende le differenze di devianza confrontabili con statistiche di rapporto di verosimiglianza e, in condizioni regolari, con distribuzioni chi-quadro asintotiche.

Devianza residua e devianza nulla

Nei software statistici compaiono spesso devianza residua e devianza nulla. La prima riguarda il modello stimato con i predittori; la seconda riguarda un modello base con sola intercetta.

Quantità	Formula	Lettura
Devianza residua	$\displaystyle D_{\mathrm{res}}=2\{\ell_{\mathrm{sat}}-\ell_{\mathrm{fit}}\}$	Disadattamento del modello stimato.
Devianza nulla	$\displaystyle D_0=2\{\ell_{\mathrm{sat}}-\ell_0\}$	Disadattamento del modello con sola intercetta.
Riduzione di devianza	$\displaystyle D_0-D_{\mathrm{res}}=2\{\ell_{\mathrm{fit}}-\ell_0\}$	Quanta perdita viene recuperata aggiungendo i predittori.
Gradi di libertà residui	$\displaystyle n-p$	Numero di osservazioni meno parametri stimati.
Gradi di libertà del confronto	$\displaystyle p_{\mathrm{full}}-p_{\mathrm{red}}$	Parametri aggiunti tra modello ridotto e modello completo.

La riduzione di devianza è l’analogo, nei GLM, del miglioramento di adattamento quando si passa da un modello più semplice a uno più ricco.

Confronto tra modelli

Per due modelli annidati, uno ridotto e uno completo, la differenza di devianza coincide con una statistica di test del rapporto di verosimiglianza:

\Delta D = D_{\mathrm{red}}-D_{\mathrm{full}} = 2\{\ell_{\mathrm{full}}-\ell_{\mathrm{red}}\}.

Se il modello ridotto è corretto e valgono le ipotesi regolari, allora $\Delta D$ è approssimativamente chi-quadro con gradi di libertà pari al numero di parametri aggiunti.

Caso	Statistica	Interpretazione
Modello completo migliora poco	$\displaystyle \Delta D\approx0$	I predittori aggiunti spiegano poca perdita residua.
Modello completo migliora molto	$\displaystyle \Delta D\gg0$	I predittori aggiunti recuperano molta verosimiglianza.
Test asintotico	$\displaystyle \Delta D\sim\chi^2_{\Delta p}$	Approssimazione valida sotto ipotesi regolari e campioni adeguati.
Campioni piccoli o separazione	$\displaystyle \Delta D$ instabile	L’approssimazione chi-quadro può essere fragile.

La devianza non misura automaticamente la bontà predittiva fuori campione. Per scegliere modelli a scopo predittivo servono anche validazione, penalizzazione della complessità e controllo dei residui.

Forme per famiglie comuni

La devianza totale è somma di contributi locali:

D=\sum_i d_i.

Le componenti $d_i$ dipendono dalla famiglia distributiva scelta.

Famiglia	Contributo di devianza	Nota
Gaussiana	$\displaystyle d_i=(y_i-\widehat\mu_i)^2$	Ritorna alla logica degli scarti quadratici.
Poisson	$\displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\}$	Per conteggi; se $\displaystyle y_i=0$ , il termine $\displaystyle y_i\log(y_i/\widehat\mu_i)$ è nullo.
Bernoulli	$\displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\}$	Per risposta binaria stimata con probabilità $\displaystyle \widehat p_i$ .
Gamma	$\displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\}$	Per risposte positive continue.

Queste formule spiegano perché i residui di devianza sono radici firmate dei contributi locali: conservano l’informazione individuale che, sommata al quadrato, ricostruisce la devianza globale.

Relazione con residui e dispersione

Strumento	Formula globale	Uso
Devianza	$\displaystyle D=\sum_i d_i$	Misura il disadattamento rispetto al modello saturo.
Residuo di devianza	$\displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i}$	Localizza le osservazioni che contribuiscono alla devianza.
Statistica di Pearson	$\displaystyle X_P^2=\sum_i(r_i^P)^2$	Controlla lo scarto sulla scala media-varianza.
Rapporto di dispersione	$\displaystyle D/(n-p)$	Segnale descrittivo di possibile sottoadattamento o sovradispersione.

In un modello ben specificato, devianza e statistica di Pearson dovrebbero essere compatibili con i gradi di libertà residui, almeno in senso asintotico. Valori molto maggiori dei gradi di libertà possono indicare sovradispersione, dipendenze non modellate o famiglia distributiva sbagliata.

Errori comuni

Confonderla con la devianza ANOVA: nel linguaggio GLM la devianza è una distanza di log-verosimiglianza dal modello saturo.
Leggere solo il valore assoluto: una devianza grande va confrontata con gradi di libertà, modello nullo, modelli alternativi e contesto dei dati.
Usarla come metrica predittiva universale: misura adattamento in-sample, non garantisce generalizzazione.
Applicare meccanicamente il chi-quadro: campioni piccoli, dati sparsi, separazione logistica e parametri al bordo possono rompere l’approssimazione.
Ignorare i residui locali: una devianza globale accettabile può nascondere osservazioni singole problematiche.

Vedi anche: residuo di devianza, residuo di Pearson, sovradispersione, modello lineare generalizzato, test del rapporto di verosimiglianza, verosimiglianza, massima verosimiglianza.