Sovradispersione — ingegnerismo.it

La sovradispersione si verifica quando la variabilità osservata nei dati è maggiore di quella prevista dal modello statistico. È particolarmente importante nella regressione di Poisson, dove il modello base impone equidispersione:

\operatorname{Var}(Y\mid X)=E[Y\mid X]=\mu.

Se invece

\operatorname{Var}(Y\mid X)>\mu,

il modello di Poisson sottostima la variabilità. Le conseguenze operative sono serie: errori standard troppo piccoli, intervalli di confidenza troppo stretti e test troppo ottimistici.

Definizione

Caso	Relazione varianza-media	Lettura
Equidispersione	$\displaystyle \operatorname{Var}(Y\mid X)=\mu$	Ipotesi base del modello di Poisson.
Sovradispersione	$\displaystyle \operatorname{Var}(Y\mid X)>\mu$	I dati variano più di quanto il Poisson consenta.
Sottodispersione	$\displaystyle \operatorname{Var}(Y\mid X)<\mu$	I dati variano meno del previsto.
Fattore di dispersione	$\displaystyle \phi=\dfrac{\operatorname{Var}(Y\mid X)}{\mu}$	$\displaystyle \phi>1$ indica sovradispersione.

La sovradispersione non è un dettaglio numerico: segnala che il modello sta comprimendo l’incertezza. In un problema ingegneristico questo può portare a sovrastimare la significatività di covariate, effetti di processo o fattori di rischio.

Diagnostica nei GLM

Nei modelli lineari generalizzati, una diagnosi rapida confronta statistiche globali di adattamento con i gradi di libertà residui. Se $n$ è il numero di osservazioni e $p$ il numero di parametri stimati, i gradi di libertà residui sono $n-p$ .

Indicatore	Formula	Segnale
Pearson globale	$\displaystyle X_P^2=\sum_i(r_i^P)^2$	Somma dei quadrati dei residui di Pearson.
Rapporto di Pearson	$\displaystyle \widehat\phi_P=\dfrac{X_P^2}{n-p}$	Valori molto maggiori di $\displaystyle 1$ suggeriscono sovradispersione.
Devianza residua	$\displaystyle D_{\mathrm{res}}=\sum_i d_i$	Misura il disadattamento rispetto al modello saturo.
Rapporto di devianza	$\displaystyle \widehat\phi_D=\dfrac{D_{\mathrm{res}}}{n-p}$	Rapporto elevato come indizio descrittivo, non prova automatica.
Residui locali	$\displaystyle r_i^P,\ r_i^D$	Pattern sistematici indicano struttura non modellata.

Il controllo non si riduce a una soglia unica. Rapporti di dispersione appena sopra $1$ possono essere tollerabili, mentre valori grandi e sistematici richiedono revisione del modello, dei dati e delle ipotesi.

Cause frequenti

Causa	Effetto sui dati	Rimedi possibili
Eterogeneità non osservata	Unità apparentemente simili hanno tassi reali diversi.	Covariate aggiuntive, effetti casuali, modelli gerarchici.
Cluster o dipendenza	Le osservazioni non sono indipendenti.	Modelli a effetti misti, errori standard robusti, struttura di correlazione.
Zeri in eccesso	Troppi valori $\displaystyle 0$ rispetto al Poisson.	Modelli zero-inflated o hurdle.
Eventi aggregati	I conteggi derivano da processi non elementari.	Regressione binomiale negativa o modelli composti.
Forma funzionale errata	La media stimata $\displaystyle \widehat\mu_i$ è distorta.	Nuovi predittori, non linearità, interazioni, offset corretti.

Prima di cambiare distribuzione, conviene controllare errori di codifica, unità di esposizione, offset, duplicati di osservazione e definizione operativa del conteggio.

Modelli correttivi

Approccio	Varianza modellata	Quando usarlo
Quasi-Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Stessi coefficienti medi del Poisson, errori standard gonfiati da $\displaystyle \phi$ .
Binomiale negativa	$\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2$	Sovradispersione che cresce con la media.
Poisson con effetti casuali	$\displaystyle \operatorname{Var}(Y\mid X)>\mu$	Eterogeneità tra gruppi, impianti, soggetti o lotti.
Zero-inflated	$\displaystyle P(Y=0)$ più alto del previsto	Conteggi con molti zeri strutturali.
Errori standard robusti	$\displaystyle \widehat{\operatorname{se}}(\widehat\beta)$ corretti	Inferenza più prudente senza cambiare la media stimata.

La regressione quasi-Poisson corregge soprattutto l’inferenza: aumenta gli errori standard, ma non cambia la forma della media. La regressione binomiale negativa introduce invece una legge di varianza più flessibile e spesso è preferibile quando la sovradispersione è parte della struttura generativa dei dati.

Lettura pratica

Osservazione diagnostica	Interpretazione prudente	Azione
$\displaystyle \widehat\phi\approx1$	Dispersione compatibile con il modello.	Procedere, controllando comunque residui e leverage.
$\displaystyle \widehat\phi>1$ moderato	Possibile variabilità extra.	Controllare covariate mancanti e offset.
$\displaystyle \widehat\phi\gg1$	Forte sovradispersione o modello inadeguato.	Confrontare regressione quasi-Poisson, regressione binomiale negativa o modelli gerarchici.
Residui grandi isolati	Possibili dati anomali o celle rare.	Verificare dato, esposizione e influenza locale.
Residui grandi a blocchi	Struttura sistematica non modellata.	Aggiungere gruppi, interazioni, stagionalità o dipendenza.

Una sovradispersione ignorata non rende necessariamente sbagliate le stime della media, ma rende fragile l’inferenza: p-value, intervalli e decisioni basate sugli errori standard possono diventare troppo aggressivi.

Errori comuni

Tradurre tutto in outlier: molti residui grandi indicano spesso un problema di modello, non singoli dati da cancellare.
Usare Poisson per ogni conteggio: il Poisson è naturale solo se la varianza condizionata è circa uguale alla media.
Dimenticare l’offset: conteggi raccolti su esposizioni diverse vanno modellati come tassi, non come conteggi grezzi comparabili; vedi offset nei modelli lineari generalizzati.
Confondere quasi-Poisson e binomiale negativa: la prima corregge la scala di dispersione, la seconda cambia la struttura probabilistica.
Applicare una soglia meccanica: $\widehat\phi>1$ è un segnale, ma la decisione dipende da campione, disegno, residui e scopo dell’analisi.

Vedi anche: regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, errori standard robusti, offset nei modelli lineari generalizzati, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson, residuo di devianza, devianza statistica, distribuzione binomiale negativa, modello lineare generalizzato.