Regressione quasi-Poisson — ingegnerismo.it

La regressione quasi-Poisson è una variante della regressione di Poisson usata quando i dati di conteggio mostrano sovradispersione, ma si vuole mantenere la stessa struttura della media. Non cambia i coefficienti medi del modello di Poisson: cambia soprattutto la stima dell’incertezza, introducendo un parametro di dispersione.

Con link logaritmico, la parte media resta:

\log E[Y\mid X]=\beta^T X.

La differenza è nella varianza condizionata:

\operatorname{Var}(Y\mid X)=\phi\mu, \qquad \mu=E[Y\mid X].

Se $\phi=1$ , si recupera l’equidispersione del Poisson; se $\phi>1$ , gli errori standard vengono aumentati per riflettere la variabilità extra.

Definizione

La regressione quasi-Poisson appartiene alla famiglia dei modelli quasi-verosimili: specifica una relazione media-varianza, ma non una distribuzione di probabilità completa per $Y$ .

Oggetto	Formula	Significato
Media condizionata	$\displaystyle \mu_i=E[Y_i\mid X_i]$	Conteggio medio previsto dall’insieme delle covariate.
Link logaritmico	$\displaystyle \log\mu_i=\beta^T X_i$	Stessa struttura media della regressione di Poisson.
Varianza quasi-Poisson	$\displaystyle \operatorname{Var}(Y_i\mid X_i)=\phi\mu_i$	La varianza è proporzionale alla media.
Dispersione	$\displaystyle \phi$	Fattore che corregge la scala della varianza.
Poisson come caso base	$\displaystyle \phi=1$	Nessuna correzione di dispersione.

Il modello è utile quando il Poisson descrive bene la media ma sottostima l’incertezza. In questa situazione mantenere la stessa previsione media ed espandere gli errori standard è spesso una correzione pragmatica.

Stima della dispersione

In pratica $\phi$ viene stimato confrontando una statistica globale con i gradi di libertà residui. Se $n$ è il numero di osservazioni e $p$ il numero di parametri stimati, una stima comune è:

\widehat\phi = \dfrac{1}{n-p} \sum_i \dfrac{(y_i-\widehat\mu_i)^2}{\widehat\mu_i}.

Questa è la media residua della statistica di Pearson. Quando $\widehat\phi$ è maggiore di $1$ , gli errori standard dei coefficienti vengono gonfiati circa di un fattore $\sqrt{\widehat\phi}$ .

Quantità	Formula	Lettura
Pearson globale	$\displaystyle X_P^2=\sum_i\dfrac{(y_i-\widehat\mu_i)^2}{\widehat\mu_i}$	Misura lo scarto complessivo sulla scala del Poisson.
Gradi di libertà residui	$\displaystyle n-p$	Osservazioni meno parametri stimati.
Stima di dispersione	$\displaystyle \widehat\phi=\dfrac{X_P^2}{n-p}$	Valori maggiori di $\displaystyle 1$ indicano sovradispersione.
Errore standard corretto	$\displaystyle \operatorname{se}_{qP}(\widehat\beta_j)\approx\sqrt{\widehat\phi}\operatorname{se}_{P}(\widehat\beta_j)$	Aumenta l’incertezza senza cambiare la stima del coefficiente.

La stima di $\phi$ non deve essere letta come prova automatica di modello corretto. Serve a correggere l’inferenza quando la forma della media è ragionevole ma la variabilità è più ampia del previsto.

Confronto operativo

Modello	Varianza	Che cosa cambia
Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\mu$	Media, errori standard e test assumono equidispersione.
Quasi-Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Coefficienti medi simili al Poisson, errori standard corretti da $\displaystyle \phi$ .
Regressione binomiale negativa	$\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2$	Cambia la struttura probabilistica e stima una legge di varianza più flessibile.
Poisson con effetti casuali	$\displaystyle Y_{ij}\mid U_j\sim\operatorname{Poisson}(U_j\lambda_{ij})$	Modella eterogeneità tra gruppi e dipendenza intra-gruppo.
Errori standard robusti	$\displaystyle \widehat{\operatorname{se}}(\widehat\beta)$ corretti	Correggono l’inferenza senza imporre una specifica legge di dispersione.

La scelta tra quasi-Poisson e regressione binomiale negativa dipende dal problema. Il quasi-Poisson è adatto quando serve un’inferenza prudente sui coefficienti della media; la binomiale negativa è più naturale quando la sovradispersione è parte della struttura generativa dei conteggi.

Limiti

Il quasi-Poisson non definisce una verosimiglianza ordinaria. Di conseguenza, non si confronta direttamente con modelli a piena verosimiglianza tramite AIC standard.

Aspetto	Conseguenza	Lettura pratica
Nessuna distribuzione completa	Non c’è una probabilità esplicita per ogni conteggio.	Utile per inferenza sui coefficienti, meno per previsione probabilistica completa.
AIC non ordinario	$\displaystyle \mathrm{AIC}$ standard non è direttamente applicabile.	Usare diagnostica, validazione o criteri quasi-verosimili coerenti.
Varianza proporzionale alla media	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Può essere troppo semplice se la dispersione cresce quadraticamente.
Zeri in eccesso	$\displaystyle P(Y=0)$ non viene modellata separatamente.	Valutare modelli zero-inflated o hurdle quando gli zeri sono strutturali.

Il modello corregge un sintomo importante, ma non risolve automaticamente dipendenza, cluster, offset mancanti o covariate omesse.

Errori comuni

Pensare che cambi le previsioni medie: con la stessa specificazione della media, i coefficienti stimati restano in genere molto vicini a quelli del Poisson.
Usare AIC standard contro Poisson o binomiale negativa: il quasi-Poisson non ha una verosimiglianza ordinaria comparabile.
Ignorare la causa della sovradispersione: un valore alto di $\widehat\phi$ può indicare anche offset errati, gruppi non modellati o dipendenza.
Usarlo per zeri strutturali: se molti zeri hanno un meccanismo proprio, servono modelli zero-inflated, modelli hurdle o altri modelli specifici.
Confonderlo con la regressione binomiale negativa: il quasi-Poisson scala la varianza; la binomiale negativa introduce una distribuzione più flessibile.

Vedi anche: regressione di Poisson, sovradispersione, errori standard robusti, offset nei modelli lineari generalizzati, regressione binomiale negativa, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson, modello lineare generalizzato, massima verosimiglianza.