Regressione binomiale negativa

Indice dei contenuti

    La regressione binomiale negativa è un modello per dati di conteggio usato quando la regressione di Poisson è troppo rigida perché impone varianza uguale alla media. È particolarmente utile in presenza di sovradispersione: a parità di media stimata, i dati osservati variano più di quanto il modello di Poisson consenta.

    Il modello mantiene spesso il link logaritmico:

    \log E[Y\mid X]=\beta^T X,

    ma sostituisce la legge di varianza del Poisson con una relazione più ampia, in cui la varianza cresce più rapidamente della media.

    Definizione

    Se \mu_i=E[Y_i\mid X_i] è la media condizionata, la parametrizzazione più usata nei modelli di conteggio è:

    \operatorname{Var}(Y_i\mid X_i)=\mu_i+\alpha\mu_i^2, \qquad \alpha>0.

    Il parametro \alpha misura la dispersione extra. Quando \alpha tende a zero, la varianza si avvicina a \mu_i e il modello torna al caso di Poisson.

    OggettoFormulaSignificato
    Media condizionata\displaystyle \mu_i=E[Y_i\mid X_i]Conteggio medio previsto per l’unità \displaystyle i.
    Link logaritmico\displaystyle \log\mu_i=\beta^T X_iGarantisce medie positive e coefficienti interpretabili come effetti moltiplicativi.
    Varianza NB2\displaystyle \operatorname{Var}(Y_i\mid X_i)=\mu_i+\alpha\mu_i^2La variabilità cresce più della media.
    Parametro di dispersione\displaystyle \alpha>0Quantifica l’eccesso di varianza rispetto al Poisson.
    Caso limite\displaystyle \alpha\to0Recupera il comportamento della regressione di Poisson.

    La sigla NB2 indica la forma con termine quadratico \alpha\mu_i^2. In letteratura esistono anche parametrizzazioni alternative, quindi il significato numerico del parametro di dispersione va sempre letto insieme alla formula della varianza adottata.

    Confronto con Poisson e quasi-Poisson

    ModelloLegge di varianzaUso tipico
    Poisson\displaystyle \operatorname{Var}(Y\mid X)=\muConteggi con equidispersione plausibile.
    Quasi-Poisson\displaystyle \operatorname{Var}(Y\mid X)=\phi\muInferenza corretta con scala di dispersione comune, senza una piena distribuzione di probabilità.
    Binomiale negativa NB2\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2Conteggi sovradispersi, soprattutto quando la dispersione cresce con la media.
    Poisson con effetti casuali\displaystyle \operatorname{Var}(Y\mid X)>\muEterogeneità non osservata tra gruppi, soggetti, impianti o lotti.

    La regressione quasi-Poisson corregge soprattutto gli errori standard e i test. La regressione binomiale negativa, invece, specifica una distribuzione per il conteggio e permette di stimare il parametro di dispersione tramite verosimiglianza. Questo la rende adatta anche al confronto tra modelli tramite criteri come AIC, quando le ipotesi sono ragionevoli.

    Interpretazione dei coefficienti

    Con link logaritmico, un coefficiente \beta_j ha interpretazione moltiplicativa sulla media. A parità delle altre covariate:

    \dfrac{\mu(x_j+1)}{\mu(x_j)}=e^{\beta_j}.

    Se \beta_j=0{,}2, l’incremento unitario della covariata moltiplica il conteggio medio per e^{0{,}2}\approx1{,}22, cioè circa il 22\% in più. La dispersione extra non cambia questa lettura della media, ma rende più realistica l’incertezza intorno alle stime.

    QuantitàLetturaAttenzione
    \displaystyle \beta_jEffetto della covariata sulla scala logaritmica.Non è una variazione additiva del conteggio.
    \displaystyle e^{\beta_j}Moltiplicatore della media condizionata.Va interpretato a covariate restanti fissate.
    \displaystyle \alphaIntensità della sovradispersione.Non misura l’effetto di una covariata.
    Offset \displaystyle \log t_iCorrezione per esposizioni diverse.Serve quando i conteggi sono osservati su tempi, aree o popolazioni differenti.

    Schema operativo

    PassaggioControlloDecisione
    Stimare PoissonConfrontare devianza o Pearson con i gradi di libertà.Se il rapporto è vicino a \displaystyle 1, il Poisson può bastare.
    Verificare residuiCercare pattern nei residui di Pearson e nei residui di devianza.Pattern sistematici indicano covariate mancanti o forma funzionale errata.
    Controllare esposizioneInserire offset quando le unità non hanno la stessa base di osservazione.Un offset mancante può simulare sovradispersione.
    Stimare binomiale negativaValutare \displaystyle \widehat\alpha e il miglioramento della verosimiglianza.Se \displaystyle \widehat\alpha è vicino a zero, il vantaggio sul Poisson è debole.
    Confrontare modelliUsare diagnostica, criteri informativi e interpretabilità.Non scegliere il modello solo perché produce p-value meno estremi.

    Questo schema non sostituisce la conoscenza del processo generativo. In un problema di affidabilità, traffico, manutenzione o rischio, la scelta del modello deve rispettare come il conteggio viene prodotto e aggregato.

    Errori comuni

    • Confonderla con la distribuzione binomiale negativa: la distribuzione binomiale negativa è la legge probabilistica; la regressione binomiale negativa è un modello condizionato dalle covariate.
    • Usarla automaticamente appena compare sovradispersione: prima vanno controllati offset, duplicati, dipendenze e covariate mancanti.
    • Interpretare \alpha come un coefficiente di regressione: il parametro di dispersione governa la varianza, non l’effetto medio di un predittore.
    • Dimenticare gli zeri strutturali: molti zeri possono richiedere modelli zero-inflated o hurdle, non solo una varianza più ampia.
    • Confrontarla con quasi-Poisson tramite AIC: la regressione quasi-Poisson non definisce una verosimiglianza ordinaria, quindi il confronto AIC diretto non è appropriato.

    Vedi anche: regressione di Poisson, regressione quasi-Poisson, sovradispersione, offset nei modelli lineari generalizzati, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, distribuzione binomiale negativa, modello lineare generalizzato, residuo di Pearson, residuo di devianza, massima verosimiglianza.

    Pubblicato: