La sovradispersione si verifica quando la variabilità osservata nei dati è maggiore di quella prevista dal modello statistico. È particolarmente importante nella regressione di Poisson, dove il modello base impone equidispersione:
Se invece
il modello di Poisson sottostima la variabilità. Le conseguenze operative sono serie: errori standard troppo piccoli, intervalli di confidenza troppo stretti e test troppo ottimistici.
Definizione
| Caso | Relazione varianza-media | Lettura |
|---|---|---|
| Equidispersione | \displaystyle \operatorname{Var}(Y\mid X)=\mu | Ipotesi base del modello di Poisson. |
| Sovradispersione | \displaystyle \operatorname{Var}(Y\mid X)>\mu | I dati variano più di quanto il Poisson consenta. |
| Sottodispersione | \displaystyle \operatorname{Var}(Y\mid X)<\mu | I dati variano meno del previsto. |
| Fattore di dispersione | \displaystyle \phi=\dfrac{\operatorname{Var}(Y\mid X)}{\mu} | \displaystyle \phi>1 indica sovradispersione. |
La sovradispersione non è un dettaglio numerico: segnala che il modello sta comprimendo l’incertezza. In un problema ingegneristico questo può portare a sovrastimare la significatività di covariate, effetti di processo o fattori di rischio.
Diagnostica nei GLM
Nei modelli lineari generalizzati, una diagnosi rapida confronta statistiche globali di adattamento con i gradi di libertà residui. Se n è il numero di osservazioni e p il numero di parametri stimati, i gradi di libertà residui sono n-p.
| Indicatore | Formula | Segnale |
|---|---|---|
| Pearson globale | \displaystyle X_P^2=\sum_i(r_i^P)^2 | Somma dei quadrati dei residui di Pearson. |
| Rapporto di Pearson | \displaystyle \widehat\phi_P=\dfrac{X_P^2}{n-p} | Valori molto maggiori di \displaystyle 1 suggeriscono sovradispersione. |
| Devianza residua | \displaystyle D_{\mathrm{res}}=\sum_i d_i | Misura il disadattamento rispetto al modello saturo. |
| Rapporto di devianza | \displaystyle \widehat\phi_D=\dfrac{D_{\mathrm{res}}}{n-p} | Rapporto elevato come indizio descrittivo, non prova automatica. |
| Residui locali | \displaystyle r_i^P,\ r_i^D | Pattern sistematici indicano struttura non modellata. |
Il controllo non si riduce a una soglia unica. Rapporti di dispersione appena sopra 1 possono essere tollerabili, mentre valori grandi e sistematici richiedono revisione del modello, dei dati e delle ipotesi.
Cause frequenti
| Causa | Effetto sui dati | Rimedi possibili |
|---|---|---|
| Eterogeneità non osservata | Unità apparentemente simili hanno tassi reali diversi. | Covariate aggiuntive, effetti casuali, modelli gerarchici. |
| Cluster o dipendenza | Le osservazioni non sono indipendenti. | Modelli a effetti misti, errori standard robusti, struttura di correlazione. |
| Zeri in eccesso | Troppi valori \displaystyle 0 rispetto al Poisson. | Modelli zero-inflated o hurdle. |
| Eventi aggregati | I conteggi derivano da processi non elementari. | Regressione binomiale negativa o modelli composti. |
| Forma funzionale errata | La media stimata \displaystyle \widehat\mu_i è distorta. | Nuovi predittori, non linearità, interazioni, offset corretti. |
Prima di cambiare distribuzione, conviene controllare errori di codifica, unità di esposizione, offset, duplicati di osservazione e definizione operativa del conteggio.
Modelli correttivi
| Approccio | Varianza modellata | Quando usarlo |
|---|---|---|
| Quasi-Poisson | \displaystyle \operatorname{Var}(Y\mid X)=\phi\mu | Stessi coefficienti medi del Poisson, errori standard gonfiati da \displaystyle \phi. |
| Binomiale negativa | \displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2 | Sovradispersione che cresce con la media. |
| Poisson con effetti casuali | \displaystyle \operatorname{Var}(Y\mid X)>\mu | Eterogeneità tra gruppi, impianti, soggetti o lotti. |
| Zero-inflated | \displaystyle P(Y=0) più alto del previsto | Conteggi con molti zeri strutturali. |
| Errori standard robusti | \displaystyle \widehat{\operatorname{se}}(\widehat\beta) corretti | Inferenza più prudente senza cambiare la media stimata. |
La regressione quasi-Poisson corregge soprattutto l’inferenza: aumenta gli errori standard, ma non cambia la forma della media. La regressione binomiale negativa introduce invece una legge di varianza più flessibile e spesso è preferibile quando la sovradispersione è parte della struttura generativa dei dati.
Lettura pratica
| Osservazione diagnostica | Interpretazione prudente | Azione |
|---|---|---|
| \displaystyle \widehat\phi\approx1 | Dispersione compatibile con il modello. | Procedere, controllando comunque residui e leverage. |
| \displaystyle \widehat\phi>1 moderato | Possibile variabilità extra. | Controllare covariate mancanti e offset. |
| \displaystyle \widehat\phi\gg1 | Forte sovradispersione o modello inadeguato. | Confrontare regressione quasi-Poisson, regressione binomiale negativa o modelli gerarchici. |
| Residui grandi isolati | Possibili dati anomali o celle rare. | Verificare dato, esposizione e influenza locale. |
| Residui grandi a blocchi | Struttura sistematica non modellata. | Aggiungere gruppi, interazioni, stagionalità o dipendenza. |
Una sovradispersione ignorata non rende necessariamente sbagliate le stime della media, ma rende fragile l’inferenza: p-value, intervalli e decisioni basate sugli errori standard possono diventare troppo aggressivi.
Errori comuni
- Tradurre tutto in outlier: molti residui grandi indicano spesso un problema di modello, non singoli dati da cancellare.
- Usare Poisson per ogni conteggio: il Poisson è naturale solo se la varianza condizionata è circa uguale alla media.
- Dimenticare l’offset: conteggi raccolti su esposizioni diverse vanno modellati come tassi, non come conteggi grezzi comparabili; vedi offset nei modelli lineari generalizzati.
- Confondere quasi-Poisson e binomiale negativa: la prima corregge la scala di dispersione, la seconda cambia la struttura probabilistica.
- Applicare una soglia meccanica: \widehat\phi>1 è un segnale, ma la decisione dipende da campione, disegno, residui e scopo dell’analisi.
Vedi anche: regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, errori standard robusti, offset nei modelli lineari generalizzati, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson, residuo di devianza, devianza statistica, distribuzione binomiale negativa, modello lineare generalizzato.