Regressione di Poisson — ingegnerismo.it

La regressione di Poisson è un modello lineare generalizzato per variabili risposta di conteggio: numero di guasti, incidenti, difetti, arrivi, chiamate, eventi clinici, pacchetti persi o occorrenze osservate in un intervallo di tempo, spazio o esposizione.

Il modello assume che, condizionatamente alle covariate $X_i$ , la risposta $Y_i$ segua una distribuzione di Poisson:

Y_i\mid X_i\sim\operatorname{Poisson}(\mu_i)

con media positiva:

E(Y_i\mid X_i)=\mu_i>0.

Il link canonico è il logaritmo:

\log \mu_i=\eta_i=X_i^T\beta.

Quindi:

\mu_i=\exp(X_i^T\beta).

La trasformazione esponenziale garantisce che la media stimata sia sempre positiva, proprietà necessaria per un conteggio atteso.

Modello probabilistico

La funzione di massa della risposta condizionata è:

P(Y_i=y_i\mid X_i)= \frac{e^{-\mu_i}\mu_i^{y_i}}{y_i!}, \qquad y_i=0,1,2,\dots

con:

\mu_i=\exp(X_i^T\beta).

L’assunzione caratteristica della Poisson è l’equidispersione:

\operatorname{Var}(Y_i\mid X_i)=E(Y_i\mid X_i)=\mu_i.

Questo è un vincolo forte: la regressione di Poisson non modella solo la media, ma lega anche la varianza alla media. Se nei dati la variabilità è molto più alta, la stima dei coefficienti può restare informativa, ma gli errori standard e i test risultano troppo ottimistici.

Interpretazione dei coefficienti

Nel modello:

\log \mu_i=\beta_0+\beta_1x_{i1}+\cdots+\beta_px_{ip},

un incremento unitario di $x_j$ , a parità delle altre covariate, modifica il logaritmo della media di $\beta_j$ . Sulla scala naturale della media:

\frac{\mu(x_j+1)}{\mu(x_j)}=e^{\beta_j}.

Il valore $e^{\beta_j}$ è un moltiplicatore del conteggio atteso. Se $e^{\beta_j}=1{,}20$ , il conteggio atteso aumenta del $20\%$ ; se $e^{\beta_j}=0{,}80$ , diminuisce del $20\%$ .

Quando il modello include un’esposizione, l’interpretazione diventa spesso un rapporto tra tassi, non solo tra conteggi grezzi.

Offset ed esposizione

Se le unità osservate hanno esposizioni diverse, è necessario distinguere il conteggio dal tasso. Per esempio, confrontare il numero di guasti su 10 ore macchina con il numero di guasti su 100 ore macchina non ha senso senza correggere per il tempo di osservazione.

Se $t_i>0$ è l’esposizione e $\lambda_i$ è il tasso per unità di esposizione:

\mu_i=t_i\lambda_i.

Con link logaritmico:

\log\mu_i=\log t_i+X_i^T\beta.

Il termine $\log t_i$ è un offset: entra nel predittore lineare con coefficiente fissato a $1$ , non stimato. Il modello diventa:

\log\lambda_i=X_i^T\beta.

In questo modo si modellano tassi mantenendo la risposta come conteggio Poisson. L’offset è cruciale in affidabilità, epidemiologia, traffico, qualità industriale e manutenzione, dove popolazioni, tempi, superfici o numeri di componenti possono cambiare tra osservazioni.

Stima per massima verosimiglianza

I coefficienti $\beta$ sono stimati tramite massima verosimiglianza. Per osservazioni indipendenti, la log-verosimiglianza è:

\ell(\beta)= \sum_{i=1}^{n} \left[ y_iX_i^T\beta-\exp(X_i^T\beta)-\log(y_i!) \right]

nel caso senza offset. Con offset $o_i=\log t_i$ diventa:

\ell(\beta)= \sum_{i=1}^{n} \left[ y_i(X_i^T\beta+o_i)-\exp(X_i^T\beta+o_i)-\log(y_i!) \right].

La stima si ottiene numericamente, di solito con algoritmi iterativi per GLM. Il risultato fornisce coefficienti, errori standard, intervalli di confidenza e test, ma questi riassunti sono affidabili solo se la struttura media-varianza è ragionevole.

Quando usarla

La regressione di Poisson è appropriata quando:

la risposta è un conteggio non negativo;
gli eventi sono riferiti a unità comparabili o a esposizioni note;
la media condizionata è positiva e varia con le covariate;
la varianza condizionata è circa pari alla media;
gli eventi non sono dominati da dipendenze, raggruppamenti o zeri strutturali non modellati.

Esempi tipici:

Ambito	Risposta	Esposizione possibile
affidabilità	numero di guasti	ore macchina
qualità industriale	difetti osservati	area ispezionata o lotti
traffico	incidenti	veicoli-km o tempo
reti	pacchetti persi	intervallo temporale
sanità	eventi clinici	persone-tempo

La connessione con il processo di Poisson è naturale quando i conteggi derivano da eventi casuali nel tempo o nello spazio, ma la regressione è più generale: usa covariate per spiegare come cambia la media attesa.

Diagnostica

La diagnostica del modello confronta conteggi osservati e medie stimate:

\hat\mu_i=\exp(X_i^T\hat\beta).

I residui di Pearson sono:

r_i^{P}=\frac{y_i-\hat\mu_i}{\sqrt{\hat\mu_i}}.

I residui di devianza misurano invece il contributo dell’osservazione alla devianza del GLM e sono spesso più adatti a individuare osservazioni influenti o discrepanze sistematiche.

Un indicatore operativo della dispersione è:

\hat\phi= \frac{1}{n-p} \sum_{i=1}^{n} \frac{(y_i-\hat\mu_i)^2}{\hat\mu_i}.

Valori di $\hat\phi$ molto maggiori di $1$ suggeriscono sovradispersione. Valori molto minori di $1$ indicano sottodispersione, meno frequente ma possibile.

Sovradispersione e alternative

Quando la varianza osservata supera nettamente la media, il modello Poisson puro è troppo rigido:

\operatorname{Var}(Y_i\mid X_i)>\mu_i.

Cause comuni sono eterogeneità non osservata, dipendenza tra eventi, gruppi correlati, covariate mancanti, eccesso di zeri o esposizioni gestite male. Le alternative principali sono:

Problema	Modello possibile
sovradispersione moderata	regressione quasi-Poisson
sovradispersione strutturale	regressione binomiale negativa
conteggi raggruppati	modello di Poisson a effetti casuali
troppi zeri	modello zero-inflated o modello hurdle

La scelta non va fatta solo guardando un indice numerico: bisogna capire il processo generativo. Un impianto con linee produttive diverse, per esempio, può richiedere effetti casuali; un fenomeno con molte unità strutturalmente impossibilitate a generare eventi può richiedere un modello zero-inflated.

Errori comuni

Usare una regressione lineare ordinaria su conteggi, ottenendo previsioni negative o varianza mal modellata.
Dimenticare l’offset quando le esposizioni sono diverse.
Interpretare $\beta_j$ come effetto additivo sui conteggi invece che come effetto moltiplicativo sulla media.
Ignorare la sovradispersione e fidarsi di errori standard troppo piccoli.
Trattare gli zeri in eccesso come normale rumore Poisson senza controllare il processo generativo.
Inserire il tempo di esposizione come covariata stimata quando dovrebbe essere un offset noto.
Confondere conteggio totale e tasso: due unità con conteggi diversi possono avere lo stesso tasso se hanno esposizioni diverse.

Vedi anche: modello lineare generalizzato, distribuzione di Poisson, processo di Poisson, sovradispersione, offset nei modelli lineari generalizzati, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, modello zero-inflated, modello hurdle, residuo di Pearson e residuo di devianza.