La regressione quasi-Poisson è una variante della regressione di Poisson usata quando i dati di conteggio mostrano sovradispersione, ma si vuole mantenere la stessa struttura della media. Non cambia i coefficienti medi del modello di Poisson: cambia soprattutto la stima dell’incertezza, introducendo un parametro di dispersione.
Con link logaritmico, la parte media resta:
La differenza è nella varianza condizionata:
Se \phi=1, si recupera l’equidispersione del Poisson; se \phi>1, gli errori standard vengono aumentati per riflettere la variabilità extra.
Definizione
La regressione quasi-Poisson appartiene alla famiglia dei modelli quasi-verosimili: specifica una relazione media-varianza, ma non una distribuzione di probabilità completa per Y.
| Oggetto | Formula | Significato |
|---|---|---|
| Media condizionata | \displaystyle \mu_i=E[Y_i\mid X_i] | Conteggio medio previsto dall’insieme delle covariate. |
| Link logaritmico | \displaystyle \log\mu_i=\beta^T X_i | Stessa struttura media della regressione di Poisson. |
| Varianza quasi-Poisson | \displaystyle \operatorname{Var}(Y_i\mid X_i)=\phi\mu_i | La varianza è proporzionale alla media. |
| Dispersione | \displaystyle \phi | Fattore che corregge la scala della varianza. |
| Poisson come caso base | \displaystyle \phi=1 | Nessuna correzione di dispersione. |
Il modello è utile quando il Poisson descrive bene la media ma sottostima l’incertezza. In questa situazione mantenere la stessa previsione media ed espandere gli errori standard è spesso una correzione pragmatica.
Stima della dispersione
In pratica \phi viene stimato confrontando una statistica globale con i gradi di libertà residui. Se n è il numero di osservazioni e p il numero di parametri stimati, una stima comune è:
Questa è la media residua della statistica di Pearson. Quando \widehat\phi è maggiore di 1, gli errori standard dei coefficienti vengono gonfiati circa di un fattore \sqrt{\widehat\phi}.
| Quantità | Formula | Lettura |
|---|---|---|
| Pearson globale | \displaystyle X_P^2=\sum_i\dfrac{(y_i-\widehat\mu_i)^2}{\widehat\mu_i} | Misura lo scarto complessivo sulla scala del Poisson. |
| Gradi di libertà residui | \displaystyle n-p | Osservazioni meno parametri stimati. |
| Stima di dispersione | \displaystyle \widehat\phi=\dfrac{X_P^2}{n-p} | Valori maggiori di \displaystyle 1 indicano sovradispersione. |
| Errore standard corretto | \displaystyle \operatorname{se}_{qP}(\widehat\beta_j)\approx\sqrt{\widehat\phi}\operatorname{se}_{P}(\widehat\beta_j) | Aumenta l’incertezza senza cambiare la stima del coefficiente. |
La stima di \phi non deve essere letta come prova automatica di modello corretto. Serve a correggere l’inferenza quando la forma della media è ragionevole ma la variabilità è più ampia del previsto.
Confronto operativo
| Modello | Varianza | Che cosa cambia |
|---|---|---|
| Poisson | \displaystyle \operatorname{Var}(Y\mid X)=\mu | Media, errori standard e test assumono equidispersione. |
| Quasi-Poisson | \displaystyle \operatorname{Var}(Y\mid X)=\phi\mu | Coefficienti medi simili al Poisson, errori standard corretti da \displaystyle \phi. |
| Regressione binomiale negativa | \displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2 | Cambia la struttura probabilistica e stima una legge di varianza più flessibile. |
| Poisson con effetti casuali | \displaystyle Y_{ij}\mid U_j\sim\operatorname{Poisson}(U_j\lambda_{ij}) | Modella eterogeneità tra gruppi e dipendenza intra-gruppo. |
| Errori standard robusti | \displaystyle \widehat{\operatorname{se}}(\widehat\beta) corretti | Correggono l’inferenza senza imporre una specifica legge di dispersione. |
La scelta tra quasi-Poisson e regressione binomiale negativa dipende dal problema. Il quasi-Poisson è adatto quando serve un’inferenza prudente sui coefficienti della media; la binomiale negativa è più naturale quando la sovradispersione è parte della struttura generativa dei conteggi.
Limiti
Il quasi-Poisson non definisce una verosimiglianza ordinaria. Di conseguenza, non si confronta direttamente con modelli a piena verosimiglianza tramite AIC standard.
| Aspetto | Conseguenza | Lettura pratica |
|---|---|---|
| Nessuna distribuzione completa | Non c’è una probabilità esplicita per ogni conteggio. | Utile per inferenza sui coefficienti, meno per previsione probabilistica completa. |
| AIC non ordinario | \displaystyle \mathrm{AIC} standard non è direttamente applicabile. | Usare diagnostica, validazione o criteri quasi-verosimili coerenti. |
| Varianza proporzionale alla media | \displaystyle \operatorname{Var}(Y\mid X)=\phi\mu | Può essere troppo semplice se la dispersione cresce quadraticamente. |
| Zeri in eccesso | \displaystyle P(Y=0) non viene modellata separatamente. | Valutare modelli zero-inflated o hurdle quando gli zeri sono strutturali. |
Il modello corregge un sintomo importante, ma non risolve automaticamente dipendenza, cluster, offset mancanti o covariate omesse.
Errori comuni
- Pensare che cambi le previsioni medie: con la stessa specificazione della media, i coefficienti stimati restano in genere molto vicini a quelli del Poisson.
- Usare AIC standard contro Poisson o binomiale negativa: il quasi-Poisson non ha una verosimiglianza ordinaria comparabile.
- Ignorare la causa della sovradispersione: un valore alto di \widehat\phi può indicare anche offset errati, gruppi non modellati o dipendenza.
- Usarlo per zeri strutturali: se molti zeri hanno un meccanismo proprio, servono modelli zero-inflated, modelli hurdle o altri modelli specifici.
- Confonderlo con la regressione binomiale negativa: il quasi-Poisson scala la varianza; la binomiale negativa introduce una distribuzione più flessibile.
Vedi anche: regressione di Poisson, sovradispersione, errori standard robusti, offset nei modelli lineari generalizzati, regressione binomiale negativa, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson, modello lineare generalizzato, massima verosimiglianza.