La devianza, nel contesto dei modelli lineari generalizzati, misura quanto il modello stimato perde rispetto al modello saturo, cioè al modello che adatta perfettamente ogni osservazione. È una misura di disadattamento basata sulla verosimiglianza, non una semplice somma di scarti quadratici.
Se \ell_{\mathrm{sat}} è la log-verosimiglianza del modello saturo e \ell(\widehat\theta) è la log-verosimiglianza del modello stimato, la devianza è
Valori piccoli indicano che il modello stimato è vicino al modello saturo; valori grandi indicano perdita di adattamento. In italiano il termine “devianza” può indicare anche una somma di scarti quadratici in statistica descrittiva o ANOVA. In questa voce si usa il significato proprio dei GLM e della teoria della verosimiglianza.
Definizione nei GLM
| Oggetto | Formula | Significato |
|---|---|---|
| Log-verosimiglianza satura | \displaystyle \ell_{\mathrm{sat}} | Valore massimo ottenuto dal modello che riproduce esattamente i dati. |
| Log-verosimiglianza stimata | \displaystyle \ell(\widehat\theta) | Valore massimo ottenuto dal modello effettivamente stimato. |
| Devianza | \displaystyle D=2\{\ell_{\mathrm{sat}}-\ell(\widehat\theta)\} | Perdita di log-verosimiglianza rispetto al modello saturo, moltiplicata per due. |
| Modello ben adattato | \displaystyle D\approx0 | Il modello stimato è vicino al modello saturo. |
| Modello mal adattato | \displaystyle D\gg0 | Il modello perde molta verosimiglianza rispetto al saturo. |
La moltiplicazione per 2 non è ornamentale: rende le differenze di devianza confrontabili con statistiche di rapporto di verosimiglianza e, in condizioni regolari, con distribuzioni chi-quadro asintotiche.
Devianza residua e devianza nulla
Nei software statistici compaiono spesso devianza residua e devianza nulla. La prima riguarda il modello stimato con i predittori; la seconda riguarda un modello base con sola intercetta.
| Quantità | Formula | Lettura |
|---|---|---|
| Devianza residua | \displaystyle D_{\mathrm{res}}=2\{\ell_{\mathrm{sat}}-\ell_{\mathrm{fit}}\} | Disadattamento del modello stimato. |
| Devianza nulla | \displaystyle D_0=2\{\ell_{\mathrm{sat}}-\ell_0\} | Disadattamento del modello con sola intercetta. |
| Riduzione di devianza | \displaystyle D_0-D_{\mathrm{res}}=2\{\ell_{\mathrm{fit}}-\ell_0\} | Quanta perdita viene recuperata aggiungendo i predittori. |
| Gradi di libertà residui | \displaystyle n-p | Numero di osservazioni meno parametri stimati. |
| Gradi di libertà del confronto | \displaystyle p_{\mathrm{full}}-p_{\mathrm{red}} | Parametri aggiunti tra modello ridotto e modello completo. |
La riduzione di devianza è l’analogo, nei GLM, del miglioramento di adattamento quando si passa da un modello più semplice a uno più ricco.
Confronto tra modelli
Per due modelli annidati, uno ridotto e uno completo, la differenza di devianza coincide con una statistica di test del rapporto di verosimiglianza:
Se il modello ridotto è corretto e valgono le ipotesi regolari, allora \Delta D è approssimativamente chi-quadro con gradi di libertà pari al numero di parametri aggiunti.
| Caso | Statistica | Interpretazione |
|---|---|---|
| Modello completo migliora poco | \displaystyle \Delta D\approx0 | I predittori aggiunti spiegano poca perdita residua. |
| Modello completo migliora molto | \displaystyle \Delta D\gg0 | I predittori aggiunti recuperano molta verosimiglianza. |
| Test asintotico | \displaystyle \Delta D\sim\chi^2_{\Delta p} | Approssimazione valida sotto ipotesi regolari e campioni adeguati. |
| Campioni piccoli o separazione | \displaystyle \Delta D instabile | L’approssimazione chi-quadro può essere fragile. |
La devianza non misura automaticamente la bontà predittiva fuori campione. Per scegliere modelli a scopo predittivo servono anche validazione, penalizzazione della complessità e controllo dei residui.
Forme per famiglie comuni
La devianza totale è somma di contributi locali:
Le componenti d_i dipendono dalla famiglia distributiva scelta.
| Famiglia | Contributo di devianza | Nota |
|---|---|---|
| Gaussiana | \displaystyle d_i=(y_i-\widehat\mu_i)^2 | Ritorna alla logica degli scarti quadratici. |
| Poisson | \displaystyle d_i=2\{y_i\log(y_i/\widehat\mu_i)-(y_i-\widehat\mu_i)\} | Per conteggi; se \displaystyle y_i=0, il termine \displaystyle y_i\log(y_i/\widehat\mu_i) è nullo. |
| Bernoulli | \displaystyle d_i=-2\{y_i\log\widehat p_i+(1-y_i)\log(1-\widehat p_i)\} | Per risposta binaria stimata con probabilità \displaystyle \widehat p_i. |
| Gamma | \displaystyle d_i=2\{(y_i-\widehat\mu_i)/\widehat\mu_i-\log(y_i/\widehat\mu_i)\} | Per risposte positive continue. |
Queste formule spiegano perché i residui di devianza sono radici firmate dei contributi locali: conservano l’informazione individuale che, sommata al quadrato, ricostruisce la devianza globale.
Relazione con residui e dispersione
| Strumento | Formula globale | Uso |
|---|---|---|
| Devianza | \displaystyle D=\sum_i d_i | Misura il disadattamento rispetto al modello saturo. |
| Residuo di devianza | \displaystyle r_i^D=\operatorname{sgn}(y_i-\widehat\mu_i)\sqrt{d_i} | Localizza le osservazioni che contribuiscono alla devianza. |
| Statistica di Pearson | \displaystyle X_P^2=\sum_i(r_i^P)^2 | Controlla lo scarto sulla scala media-varianza. |
| Rapporto di dispersione | \displaystyle D/(n-p) | Segnale descrittivo di possibile sottoadattamento o sovradispersione. |
In un modello ben specificato, devianza e statistica di Pearson dovrebbero essere compatibili con i gradi di libertà residui, almeno in senso asintotico. Valori molto maggiori dei gradi di libertà possono indicare sovradispersione, dipendenze non modellate o famiglia distributiva sbagliata.
Errori comuni
- Confonderla con la devianza ANOVA: nel linguaggio GLM la devianza è una distanza di log-verosimiglianza dal modello saturo.
- Leggere solo il valore assoluto: una devianza grande va confrontata con gradi di libertà, modello nullo, modelli alternativi e contesto dei dati.
- Usarla come metrica predittiva universale: misura adattamento in-sample, non garantisce generalizzazione.
- Applicare meccanicamente il chi-quadro: campioni piccoli, dati sparsi, separazione logistica e parametri al bordo possono rompere l’approssimazione.
- Ignorare i residui locali: una devianza globale accettabile può nascondere osservazioni singole problematiche.
Vedi anche: residuo di devianza, residuo di Pearson, sovradispersione, modello lineare generalizzato, test del rapporto di verosimiglianza, verosimiglianza, massima verosimiglianza.