Regressione binomiale negativa

La regressione binomiale negativa è un modello per dati di conteggio usato quando la regressione di Poisson è troppo rigida perché impone varianza uguale alla media. È particolarmente utile in presenza di sovradispersione: a parità di media stimata, i dati osservati variano più di quanto il modello di Poisson consenta.

Il modello mantiene spesso il link logaritmico:

\log E[Y\mid X]=\beta^T X,

ma sostituisce la legge di varianza del Poisson con una relazione più ampia, in cui la varianza cresce più rapidamente della media.

Definizione

Se $\mu_i=E[Y_i\mid X_i]$ è la media condizionata, la parametrizzazione più usata nei modelli di conteggio è:

\operatorname{Var}(Y_i\mid X_i)=\mu_i+\alpha\mu_i^2, \qquad \alpha>0.

Il parametro $\alpha$ misura la dispersione extra. Quando $\alpha$ tende a zero, la varianza si avvicina a $\mu_i$ e il modello torna al caso di Poisson.

Oggetto	Formula	Significato
Media condizionata	$\displaystyle \mu_i=E[Y_i\mid X_i]$	Conteggio medio previsto per l’unità $\displaystyle i$ .
Link logaritmico	$\displaystyle \log\mu_i=\beta^T X_i$	Garantisce medie positive e coefficienti interpretabili come effetti moltiplicativi.
Varianza NB2	$\displaystyle \operatorname{Var}(Y_i\mid X_i)=\mu_i+\alpha\mu_i^2$	La variabilità cresce più della media.
Parametro di dispersione	$\displaystyle \alpha>0$	Quantifica l’eccesso di varianza rispetto al Poisson.
Caso limite	$\displaystyle \alpha\to0$	Recupera il comportamento della regressione di Poisson.

La sigla NB2 indica la forma con termine quadratico $\alpha\mu_i^2$ . In letteratura esistono anche parametrizzazioni alternative, quindi il significato numerico del parametro di dispersione va sempre letto insieme alla formula della varianza adottata.

Confronto con Poisson e quasi-Poisson

Modello	Legge di varianza	Uso tipico
Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\mu$	Conteggi con equidispersione plausibile.
Quasi-Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Inferenza corretta con scala di dispersione comune, senza una piena distribuzione di probabilità.
Binomiale negativa NB2	$\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2$	Conteggi sovradispersi, soprattutto quando la dispersione cresce con la media.
Poisson con effetti casuali	$\displaystyle \operatorname{Var}(Y\mid X)>\mu$	Eterogeneità non osservata tra gruppi, soggetti, impianti o lotti.

La regressione quasi-Poisson corregge soprattutto gli errori standard e i test. La regressione binomiale negativa, invece, specifica una distribuzione per il conteggio e permette di stimare il parametro di dispersione tramite verosimiglianza. Questo la rende adatta anche al confronto tra modelli tramite criteri come AIC, quando le ipotesi sono ragionevoli.

Interpretazione dei coefficienti

Con link logaritmico, un coefficiente $\beta_j$ ha interpretazione moltiplicativa sulla media. A parità delle altre covariate:

\dfrac{\mu(x_j+1)}{\mu(x_j)}=e^{\beta_j}.

Se $\beta_j=0{,}2$ , l’incremento unitario della covariata moltiplica il conteggio medio per $e^{0{,}2}\approx1{,}22$ , cioè circa il $22\%$ in più. La dispersione extra non cambia questa lettura della media, ma rende più realistica l’incertezza intorno alle stime.

Quantità	Lettura	Attenzione
$\displaystyle \beta_j$	Effetto della covariata sulla scala logaritmica.	Non è una variazione additiva del conteggio.
$\displaystyle e^{\beta_j}$	Moltiplicatore della media condizionata.	Va interpretato a covariate restanti fissate.
$\displaystyle \alpha$	Intensità della sovradispersione.	Non misura l’effetto di una covariata.
Offset $\displaystyle \log t_i$	Correzione per esposizioni diverse.	Serve quando i conteggi sono osservati su tempi, aree o popolazioni differenti.

Schema operativo

Passaggio	Controllo	Decisione
Stimare Poisson	Confrontare devianza o Pearson con i gradi di libertà.	Se il rapporto è vicino a $\displaystyle 1$ , il Poisson può bastare.
Verificare residui	Cercare pattern nei residui di Pearson e nei residui di devianza.	Pattern sistematici indicano covariate mancanti o forma funzionale errata.
Controllare esposizione	Inserire offset quando le unità non hanno la stessa base di osservazione.	Un offset mancante può simulare sovradispersione.
Stimare binomiale negativa	Valutare $\displaystyle \widehat\alpha$ e il miglioramento della verosimiglianza.	Se $\displaystyle \widehat\alpha$ è vicino a zero, il vantaggio sul Poisson è debole.
Confrontare modelli	Usare diagnostica, criteri informativi e interpretabilità.	Non scegliere il modello solo perché produce p-value meno estremi.

Questo schema non sostituisce la conoscenza del processo generativo. In un problema di affidabilità, traffico, manutenzione o rischio, la scelta del modello deve rispettare come il conteggio viene prodotto e aggregato.

Errori comuni

Confonderla con la distribuzione binomiale negativa: la distribuzione binomiale negativa è la legge probabilistica; la regressione binomiale negativa è un modello condizionato dalle covariate.
Usarla automaticamente appena compare sovradispersione: prima vanno controllati offset, duplicati, dipendenze e covariate mancanti.
Interpretare $\alpha$ come un coefficiente di regressione: il parametro di dispersione governa la varianza, non l’effetto medio di un predittore.
Dimenticare gli zeri strutturali: molti zeri possono richiedere modelli zero-inflated o hurdle, non solo una varianza più ampia.
Confrontarla con quasi-Poisson tramite AIC: la regressione quasi-Poisson non definisce una verosimiglianza ordinaria, quindi il confronto AIC diretto non è appropriato.

Vedi anche: regressione di Poisson, regressione quasi-Poisson, sovradispersione, offset nei modelli lineari generalizzati, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, distribuzione binomiale negativa, modello lineare generalizzato, residuo di Pearson, residuo di devianza, massima verosimiglianza.