Regressione di Poisson

Indice dei contenuti

    La regressione di Poisson è un modello lineare generalizzato per variabili risposta di conteggio: numero di guasti, incidenti, difetti, arrivi, chiamate, eventi clinici, pacchetti persi o occorrenze osservate in un intervallo di tempo, spazio o esposizione.

    Il modello assume che, condizionatamente alle covariate X_i, la risposta Y_i segua una distribuzione di Poisson:

    Y_i\mid X_i\sim\operatorname{Poisson}(\mu_i)

    con media positiva:

    E(Y_i\mid X_i)=\mu_i>0.

    Il link canonico è il logaritmo:

    \log \mu_i=\eta_i=X_i^T\beta.

    Quindi:

    \mu_i=\exp(X_i^T\beta).

    La trasformazione esponenziale garantisce che la media stimata sia sempre positiva, proprietà necessaria per un conteggio atteso.

    Modello probabilistico

    La funzione di massa della risposta condizionata è:

    P(Y_i=y_i\mid X_i)= \frac{e^{-\mu_i}\mu_i^{y_i}}{y_i!}, \qquad y_i=0,1,2,\dots

    con:

    \mu_i=\exp(X_i^T\beta).

    L’assunzione caratteristica della Poisson è l’equidispersione:

    \operatorname{Var}(Y_i\mid X_i)=E(Y_i\mid X_i)=\mu_i.

    Questo è un vincolo forte: la regressione di Poisson non modella solo la media, ma lega anche la varianza alla media. Se nei dati la variabilità è molto più alta, la stima dei coefficienti può restare informativa, ma gli errori standard e i test risultano troppo ottimistici.

    Interpretazione dei coefficienti

    Nel modello:

    \log \mu_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip},

    un incremento unitario di x_j, a parità delle altre covariate, modifica il logaritmo della media di \beta_j. Sulla scala naturale della media:

    \frac{\mu(x_j+1)}{\mu(x_j)}=e^{\beta_j}.

    Il valore e^{\beta_j} è un moltiplicatore del conteggio atteso. Se e^{\beta_j}=1{,}20, il conteggio atteso aumenta del 20\%; se e^{\beta_j}=0{,}80, diminuisce del 20\%.

    Quando il modello include un’esposizione, l’interpretazione diventa spesso un rapporto tra tassi, non solo tra conteggi grezzi.

    Offset ed esposizione

    Se le unità osservate hanno esposizioni diverse, è necessario distinguere il conteggio dal tasso. Per esempio, confrontare il numero di guasti su 10 ore macchina con il numero di guasti su 100 ore macchina non ha senso senza correggere per il tempo di osservazione.

    Se t_i>0 è l’esposizione e \lambda_i è il tasso per unità di esposizione:

    \mu_i=t_i\lambda_i.

    Con link logaritmico:

    \log\mu_i=\log t_i+X_i^T\beta.

    Il termine \log t_i è un offset: entra nel predittore lineare con coefficiente fissato a 1, non stimato. Il modello diventa:

    \log\lambda_i=X_i^T\beta.

    In questo modo si modellano tassi mantenendo la risposta come conteggio Poisson. L’offset è cruciale in affidabilità, epidemiologia, traffico, qualità industriale e manutenzione, dove popolazioni, tempi, superfici o numeri di componenti possono cambiare tra osservazioni.

    Stima per massima verosimiglianza

    I coefficienti \beta sono stimati tramite massima verosimiglianza. Per osservazioni indipendenti, la log-verosimiglianza è:

    \ell(\beta)= \sum_{i=1}^{n} \left[ y_iX_i^T\beta-\exp(X_i^T\beta)-\log(y_i!) \right]

    nel caso senza offset. Con offset o_i=\log t_i diventa:

    \ell(\beta)= \sum_{i=1}^{n} \left[ y_i(X_i^T\beta+o_i)-\exp(X_i^T\beta+o_i)-\log(y_i!) \right].

    La stima si ottiene numericamente, di solito con algoritmi iterativi per GLM. Il risultato fornisce coefficienti, errori standard, intervalli di confidenza e test, ma questi riassunti sono affidabili solo se la struttura media-varianza è ragionevole.

    Quando usarla

    La regressione di Poisson è appropriata quando:

    1. la risposta è un conteggio non negativo;
    2. gli eventi sono riferiti a unità comparabili o a esposizioni note;
    3. la media condizionata è positiva e varia con le covariate;
    4. la varianza condizionata è circa pari alla media;
    5. gli eventi non sono dominati da dipendenze, raggruppamenti o zeri strutturali non modellati.

    Esempi tipici:

    AmbitoRispostaEsposizione possibile
    affidabilitànumero di guastiore macchina
    qualità industrialedifetti osservatiarea ispezionata o lotti
    trafficoincidentiveicoli-km o tempo
    retipacchetti persiintervallo temporale
    sanitàeventi clinicipersone-tempo

    La connessione con il processo di Poisson è naturale quando i conteggi derivano da eventi casuali nel tempo o nello spazio, ma la regressione è più generale: usa covariate per spiegare come cambia la media attesa.

    Diagnostica

    La diagnostica del modello confronta conteggi osservati e medie stimate:

    \hat\mu_i=\exp(X_i^T\hat\beta).

    I residui di Pearson sono:

    r_i^{P}=\frac{y_i-\hat\mu_i}{\sqrt{\hat\mu_i}}.

    I residui di devianza misurano invece il contributo dell’osservazione alla devianza del GLM e sono spesso più adatti a individuare osservazioni influenti o discrepanze sistematiche.

    Un indicatore operativo della dispersione è:

    \hat\phi= \frac{1}{n-p} \sum_{i=1}^{n} \frac{(y_i-\hat\mu_i)^2}{\hat\mu_i}.

    Valori di \hat\phi molto maggiori di 1 suggeriscono sovradispersione. Valori molto minori di 1 indicano sottodispersione, meno frequente ma possibile.

    Sovradispersione e alternative

    Quando la varianza osservata supera nettamente la media, il modello Poisson puro è troppo rigido:

    \operatorname{Var}(Y_i\mid X_i)>\mu_i.

    Cause comuni sono eterogeneità non osservata, dipendenza tra eventi, gruppi correlati, covariate mancanti, eccesso di zeri o esposizioni gestite male. Le alternative principali sono:

    ProblemaModello possibile
    sovradispersione moderataregressione quasi-Poisson
    sovradispersione strutturaleregressione binomiale negativa
    conteggi raggruppatimodello di Poisson a effetti casuali
    troppi zerimodello zero-inflated o modello hurdle

    La scelta non va fatta solo guardando un indice numerico: bisogna capire il processo generativo. Un impianto con linee produttive diverse, per esempio, può richiedere effetti casuali; un fenomeno con molte unità strutturalmente impossibilitate a generare eventi può richiedere un modello zero-inflated.

    Errori comuni

    1. Usare una regressione lineare ordinaria su conteggi, ottenendo previsioni negative o varianza mal modellata.
    2. Dimenticare l’offset quando le esposizioni sono diverse.
    3. Interpretare \beta_j come effetto additivo sui conteggi invece che come effetto moltiplicativo sulla media.
    4. Ignorare la sovradispersione e fidarsi di errori standard troppo piccoli.
    5. Trattare gli zeri in eccesso come normale rumore Poisson senza controllare il processo generativo.
    6. Inserire il tempo di esposizione come covariata stimata quando dovrebbe essere un offset noto.
    7. Confondere conteggio totale e tasso: due unità con conteggi diversi possono avere lo stesso tasso se hanno esposizioni diverse.

    Vedi anche: modello lineare generalizzato, distribuzione di Poisson, processo di Poisson, sovradispersione, offset nei modelli lineari generalizzati, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson e residuo di devianza.

    Ultimo aggiornamento: