Offset nei modelli lineari generalizzati

In un modello lineare generalizzato, un offset è un termine noto inserito nel predittore lineare con coefficiente fissato a uno. Non è una covariata da stimare: è una correzione deterministica che serve a rendere confrontabili osservazioni misurate su esposizioni diverse.

Nei dati di conteggio l’offset più comune è il logaritmo dell’esposizione: tempo di osservazione, area, volume, numero di componenti, popolazione a rischio o chilometri percorsi.

Definizione

Se $\eta_i$ è il predittore lineare del GLM, l’offset $o_i$ entra così:

\eta_i=X_i^T\beta+o_i.

Il coefficiente di $o_i$ non viene stimato: è fissato a $1$ . Se fosse stimato, il termine diventerebbe una normale covariata.

Oggetto	Formula	Significato
Predittore senza offset	$\displaystyle \eta_i=X_i^T\beta$	Parte stimata tramite coefficienti di regressione.
Predittore con offset	$\displaystyle \eta_i=X_i^T\beta+o_i$	Aggiunge una correzione nota.
Coefficiente dell’offset	$\displaystyle 1$	Valore imposto, non stimato dai dati.
Offset logaritmico	$\displaystyle o_i=\log t_i$	Correzione tipica per esposizione positiva $\displaystyle t_i$ .
Vincolo	$\displaystyle t_i>0$	Il logaritmo dell’esposizione richiede valori strettamente positivi.

L’offset è quindi parte del disegno del modello. Traduce un’informazione esterna nota nella scala del link.

Conteggi e tassi

Nella regressione di Poisson, se $Y_i$ è un conteggio osservato su un’esposizione $t_i$ , è spesso più corretto modellare il tasso $\lambda_i$ invece del conteggio grezzo. Se

E(Y_i\mid X_i)=\mu_i=t_i\lambda_i,

allora, con link logaritmico:

\log\mu_i=\log t_i+X_i^T\beta.

Quantità	Formula	Lettura
Conteggio atteso	$\displaystyle \mu_i=t_i\lambda_i$	Il conteggio cresce con l’esposizione.
Tasso atteso	$\displaystyle \lambda_i=\dfrac{\mu_i}{t_i}$	Intensità per unità di esposizione.
Link con offset	$\displaystyle \log\mu_i=\log t_i+X_i^T\beta$	Modella tassi mantenendo il conteggio come risposta.
Rapporto tra tassi	$\displaystyle e^{\beta_j}$	Effetto moltiplicativo sulla frequenza per unità di esposizione.
Esposizione doppia	$\displaystyle t_i\mapsto2t_i$	A parità di tasso, il conteggio atteso raddoppia.

Senza offset, un impianto osservato per dieci ore e uno osservato per cento ore verrebbero trattati come direttamente comparabili nei conteggi grezzi. L’offset evita questo errore: confronta intensità, non solo totali.

Offset o covariata

Scelta	Coefficiente	Uso corretto
Offset	$\displaystyle 1$ fissato	L’esposizione scala meccanicamente il conteggio atteso.
Covariata	$\displaystyle \beta_j$ stimato	L’effetto deve essere appreso dai dati.
Trasformazione della risposta	$\displaystyle Y_i/t_i$	Possibile, ma può alterare varianza e distribuzione.
Peso osservazionale	$\displaystyle w_i$	Cambia il contributo alla stima, non la media attesa nello stesso modo.

La domanda chiave è se l’effetto dell’esposizione sia noto per definizione. Se un periodo doppio di osservazione raddoppia il numero atteso di eventi, $\log t_i$ è un offset naturale. Se invece l’effetto dell’esposizione è incerto o non proporzionale, va trattato con maggiore cautela.

Dove compare

Modello	Offset tipico	Interpretazione
Regressione di Poisson	$\displaystyle \log t_i$	Modello di tassi di evento.
Regressione quasi-Poisson	$\displaystyle \log t_i$	Tassi con correzione della dispersione.
Regressione binomiale negativa	$\displaystyle \log t_i$	Tassi sovradispersi.
Poisson a effetti casuali	$\displaystyle \log t_{ij}$	Tassi con eterogeneità tra gruppi.
Modelli zero-inflated o hurdle	$\displaystyle \log t_i$ nella parte di conteggio	Esposizione corretta anche quando gli zeri sono modellati separatamente.

In applicazioni ingegneristiche l’esposizione può essere un tempo macchina, una distanza percorsa, una superficie ispezionata, un volume processato o il numero di componenti soggetti a guasto.

Errori comuni

Dimenticare l’offset: conteggi osservati su esposizioni diverse possono simulare sovradispersione o effetti di covariata inesistenti.
Inserire l’esposizione come covariata qualunque: se l’effetto deve essere proporzionale per definizione, il coefficiente va fissato a uno sulla scala logaritmica.
Usare $\log t_i$ con esposizioni nulle: il logaritmo richiede $t_i>0$ ; esposizioni nulle vanno gestite a monte nella definizione del dato.
Interpretare i coefficienti come effetti sui conteggi grezzi: con offset logaritmico, i coefficienti descrivono effetti sui tassi.
Confondere offset e pesi: i pesi modificano il contributo delle osservazioni alla stima, mentre l’offset modifica il predittore della media.

Vedi anche: modello lineare generalizzato, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, sovradispersione.