Sovradispersione

Indice dei contenuti

    La sovradispersione si verifica quando la variabilità osservata nei dati è maggiore di quella prevista dal modello statistico. È particolarmente importante nella regressione di Poisson, dove il modello base impone equidispersione:

    \operatorname{Var}(Y\mid X)=E[Y\mid X]=\mu.

    Se invece

    \operatorname{Var}(Y\mid X)>\mu,

    il modello di Poisson sottostima la variabilità. Le conseguenze operative sono serie: errori standard troppo piccoli, intervalli di confidenza troppo stretti e test troppo ottimistici.

    Definizione

    CasoRelazione varianza-mediaLettura
    Equidispersione\displaystyle \operatorname{Var}(Y\mid X)=\muIpotesi base del modello di Poisson.
    Sovradispersione\displaystyle \operatorname{Var}(Y\mid X)>\muI dati variano più di quanto il Poisson consenta.
    Sottodispersione\displaystyle \operatorname{Var}(Y\mid X)<\muI dati variano meno del previsto.
    Fattore di dispersione\displaystyle \phi=\dfrac{\operatorname{Var}(Y\mid X)}{\mu}\displaystyle \phi>1 indica sovradispersione.

    La sovradispersione non è un dettaglio numerico: segnala che il modello sta comprimendo l’incertezza. In un problema ingegneristico questo può portare a sovrastimare la significatività di covariate, effetti di processo o fattori di rischio.

    Diagnostica nei GLM

    Nei modelli lineari generalizzati, una diagnosi rapida confronta statistiche globali di adattamento con i gradi di libertà residui. Se n è il numero di osservazioni e p il numero di parametri stimati, i gradi di libertà residui sono n-p.

    IndicatoreFormulaSegnale
    Pearson globale\displaystyle X_P^2=\sum_i(r_i^P)^2Somma dei quadrati dei residui di Pearson.
    Rapporto di Pearson\displaystyle \widehat\phi_P=\dfrac{X_P^2}{n-p}Valori molto maggiori di \displaystyle 1 suggeriscono sovradispersione.
    Devianza residua\displaystyle D_{\mathrm{res}}=\sum_i d_iMisura il disadattamento rispetto al modello saturo.
    Rapporto di devianza\displaystyle \widehat\phi_D=\dfrac{D_{\mathrm{res}}}{n-p}Rapporto elevato come indizio descrittivo, non prova automatica.
    Residui locali\displaystyle r_i^P,\ r_i^DPattern sistematici indicano struttura non modellata.

    Il controllo non si riduce a una soglia unica. Rapporti di dispersione appena sopra 1 possono essere tollerabili, mentre valori grandi e sistematici richiedono revisione del modello, dei dati e delle ipotesi.

    Cause frequenti

    CausaEffetto sui datiRimedi possibili
    Eterogeneità non osservataUnità apparentemente simili hanno tassi reali diversi.Covariate aggiuntive, effetti casuali, modelli gerarchici.
    Cluster o dipendenzaLe osservazioni non sono indipendenti.Modelli a effetti misti, errori standard robusti, struttura di correlazione.
    Zeri in eccessoTroppi valori \displaystyle 0 rispetto al Poisson.Modelli zero-inflated o hurdle.
    Eventi aggregatiI conteggi derivano da processi non elementari.Regressione binomiale negativa o modelli composti.
    Forma funzionale errataLa media stimata \displaystyle \widehat\mu_i è distorta.Nuovi predittori, non linearità, interazioni, offset corretti.

    Prima di cambiare distribuzione, conviene controllare errori di codifica, unità di esposizione, offset, duplicati di osservazione e definizione operativa del conteggio.

    Modelli correttivi

    ApproccioVarianza modellataQuando usarlo
    Quasi-Poisson\displaystyle \operatorname{Var}(Y\mid X)=\phi\muStessi coefficienti medi del Poisson, errori standard gonfiati da \displaystyle \phi.
    Binomiale negativa\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2Sovradispersione che cresce con la media.
    Poisson con effetti casuali\displaystyle \operatorname{Var}(Y\mid X)>\muEterogeneità tra gruppi, impianti, soggetti o lotti.
    Zero-inflated\displaystyle P(Y=0) più alto del previstoConteggi con molti zeri strutturali.
    Errori standard robusti\displaystyle \widehat{\operatorname{se}}(\widehat\beta) correttiInferenza più prudente senza cambiare la media stimata.

    La regressione quasi-Poisson corregge soprattutto l’inferenza: aumenta gli errori standard, ma non cambia la forma della media. La regressione binomiale negativa introduce invece una legge di varianza più flessibile e spesso è preferibile quando la sovradispersione è parte della struttura generativa dei dati.

    Lettura pratica

    Osservazione diagnosticaInterpretazione prudenteAzione
    \displaystyle \widehat\phi\approx1Dispersione compatibile con il modello.Procedere, controllando comunque residui e leverage.
    \displaystyle \widehat\phi>1 moderatoPossibile variabilità extra.Controllare covariate mancanti e offset.
    \displaystyle \widehat\phi\gg1Forte sovradispersione o modello inadeguato.Confrontare regressione quasi-Poisson, regressione binomiale negativa o modelli gerarchici.
    Residui grandi isolatiPossibili dati anomali o celle rare.Verificare dato, esposizione e influenza locale.
    Residui grandi a blocchiStruttura sistematica non modellata.Aggiungere gruppi, interazioni, stagionalità o dipendenza.

    Una sovradispersione ignorata non rende necessariamente sbagliate le stime della media, ma rende fragile l’inferenza: p-value, intervalli e decisioni basate sugli errori standard possono diventare troppo aggressivi.

    Errori comuni

    • Tradurre tutto in outlier: molti residui grandi indicano spesso un problema di modello, non singoli dati da cancellare.
    • Usare Poisson per ogni conteggio: il Poisson è naturale solo se la varianza condizionata è circa uguale alla media.
    • Dimenticare l’offset: conteggi raccolti su esposizioni diverse vanno modellati come tassi, non come conteggi grezzi comparabili; vedi offset nei modelli lineari generalizzati.
    • Confondere quasi-Poisson e binomiale negativa: la prima corregge la scala di dispersione, la seconda cambia la struttura probabilistica.
    • Applicare una soglia meccanica: \widehat\phi>1 è un segnale, ma la decisione dipende da campione, disegno, residui e scopo dell’analisi.

    Vedi anche: regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, errori standard robusti, offset nei modelli lineari generalizzati, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson, residuo di devianza, devianza statistica, distribuzione binomiale negativa, modello lineare generalizzato.

    Pubblicato: