In un modello lineare generalizzato, un offset è un termine noto inserito nel predittore lineare con coefficiente fissato a uno. Non è una covariata da stimare: è una correzione deterministica che serve a rendere confrontabili osservazioni misurate su esposizioni diverse.
Nei dati di conteggio l’offset più comune è il logaritmo dell’esposizione: tempo di osservazione, area, volume, numero di componenti, popolazione a rischio o chilometri percorsi.
Definizione
Se \eta_i è il predittore lineare del GLM, l’offset o_i entra così:
Il coefficiente di o_i non viene stimato: è fissato a 1. Se fosse stimato, il termine diventerebbe una normale covariata.
| Oggetto | Formula | Significato |
|---|---|---|
| Predittore senza offset | \displaystyle \eta_i=X_i^T\beta | Parte stimata tramite coefficienti di regressione. |
| Predittore con offset | \displaystyle \eta_i=X_i^T\beta+o_i | Aggiunge una correzione nota. |
| Coefficiente dell’offset | \displaystyle 1 | Valore imposto, non stimato dai dati. |
| Offset logaritmico | \displaystyle o_i=\log t_i | Correzione tipica per esposizione positiva \displaystyle t_i. |
| Vincolo | \displaystyle t_i>0 | Il logaritmo dell’esposizione richiede valori strettamente positivi. |
L’offset è quindi parte del disegno del modello. Traduce un’informazione esterna nota nella scala del link.
Conteggi e tassi
Nella regressione di Poisson, se Y_i è un conteggio osservato su un’esposizione t_i, è spesso più corretto modellare il tasso \lambda_i invece del conteggio grezzo. Se
allora, con link logaritmico:
| Quantità | Formula | Lettura |
|---|---|---|
| Conteggio atteso | \displaystyle \mu_i=t_i\lambda_i | Il conteggio cresce con l’esposizione. |
| Tasso atteso | \displaystyle \lambda_i=\dfrac{\mu_i}{t_i} | Intensità per unità di esposizione. |
| Link con offset | \displaystyle \log\mu_i=\log t_i+X_i^T\beta | Modella tassi mantenendo il conteggio come risposta. |
| Rapporto tra tassi | \displaystyle e^{\beta_j} | Effetto moltiplicativo sulla frequenza per unità di esposizione. |
| Esposizione doppia | \displaystyle t_i\mapsto2t_i | A parità di tasso, il conteggio atteso raddoppia. |
Senza offset, un impianto osservato per dieci ore e uno osservato per cento ore verrebbero trattati come direttamente comparabili nei conteggi grezzi. L’offset evita questo errore: confronta intensità, non solo totali.
Offset o covariata
| Scelta | Coefficiente | Uso corretto |
|---|---|---|
| Offset | \displaystyle 1 fissato | L’esposizione scala meccanicamente il conteggio atteso. |
| Covariata | \displaystyle \beta_j stimato | L’effetto deve essere appreso dai dati. |
| Trasformazione della risposta | \displaystyle Y_i/t_i | Possibile, ma può alterare varianza e distribuzione. |
| Peso osservazionale | \displaystyle w_i | Cambia il contributo alla stima, non la media attesa nello stesso modo. |
La domanda chiave è se l’effetto dell’esposizione sia noto per definizione. Se un periodo doppio di osservazione raddoppia il numero atteso di eventi, \log t_i è un offset naturale. Se invece l’effetto dell’esposizione è incerto o non proporzionale, va trattato con maggiore cautela.
Dove compare
| Modello | Offset tipico | Interpretazione |
|---|---|---|
| Regressione di Poisson | \displaystyle \log t_i | Modello di tassi di evento. |
| Regressione quasi-Poisson | \displaystyle \log t_i | Tassi con correzione della dispersione. |
| Regressione binomiale negativa | \displaystyle \log t_i | Tassi sovradispersi. |
| Poisson a effetti casuali | \displaystyle \log t_{ij} | Tassi con eterogeneità tra gruppi. |
| Modelli zero-inflated o hurdle | \displaystyle \log t_i nella parte di conteggio | Esposizione corretta anche quando gli zeri sono modellati separatamente. |
In applicazioni ingegneristiche l’esposizione può essere un tempo macchina, una distanza percorsa, una superficie ispezionata, un volume processato o il numero di componenti soggetti a guasto.
Errori comuni
- Dimenticare l’offset: conteggi osservati su esposizioni diverse possono simulare sovradispersione o effetti di covariata inesistenti.
- Inserire l’esposizione come covariata qualunque: se l’effetto deve essere proporzionale per definizione, il coefficiente va fissato a uno sulla scala logaritmica.
- Usare \log t_i con esposizioni nulle: il logaritmo richiede t_i>0; esposizioni nulle vanno gestite a monte nella definizione del dato.
- Interpretare i coefficienti come effetti sui conteggi grezzi: con offset logaritmico, i coefficienti descrivono effetti sui tassi.
- Confondere offset e pesi: i pesi modificano il contributo delle osservazioni alla stima, mentre l’offset modifica il predittore della media.
Vedi anche: modello lineare generalizzato, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, sovradispersione.