Offset nei modelli lineari generalizzati

Indice dei contenuti

    In un modello lineare generalizzato, un offset è un termine noto inserito nel predittore lineare con coefficiente fissato a uno. Non è una covariata da stimare: è una correzione deterministica che serve a rendere confrontabili osservazioni misurate su esposizioni diverse.

    Nei dati di conteggio l’offset più comune è il logaritmo dell’esposizione: tempo di osservazione, area, volume, numero di componenti, popolazione a rischio o chilometri percorsi.

    Definizione

    Se \eta_i è il predittore lineare del GLM, l’offset o_i entra così:

    \eta_i=X_i^T\beta+o_i.

    Il coefficiente di o_i non viene stimato: è fissato a 1. Se fosse stimato, il termine diventerebbe una normale covariata.

    OggettoFormulaSignificato
    Predittore senza offset\displaystyle \eta_i=X_i^T\betaParte stimata tramite coefficienti di regressione.
    Predittore con offset\displaystyle \eta_i=X_i^T\beta+o_iAggiunge una correzione nota.
    Coefficiente dell’offset\displaystyle 1Valore imposto, non stimato dai dati.
    Offset logaritmico\displaystyle o_i=\log t_iCorrezione tipica per esposizione positiva \displaystyle t_i.
    Vincolo\displaystyle t_i>0Il logaritmo dell’esposizione richiede valori strettamente positivi.

    L’offset è quindi parte del disegno del modello. Traduce un’informazione esterna nota nella scala del link.

    Conteggi e tassi

    Nella regressione di Poisson, se Y_i è un conteggio osservato su un’esposizione t_i, è spesso più corretto modellare il tasso \lambda_i invece del conteggio grezzo. Se

    E(Y_i\mid X_i)=\mu_i=t_i\lambda_i,

    allora, con link logaritmico:

    \log\mu_i=\log t_i+X_i^T\beta.
    QuantitàFormulaLettura
    Conteggio atteso\displaystyle \mu_i=t_i\lambda_iIl conteggio cresce con l’esposizione.
    Tasso atteso\displaystyle \lambda_i=\dfrac{\mu_i}{t_i}Intensità per unità di esposizione.
    Link con offset\displaystyle \log\mu_i=\log t_i+X_i^T\betaModella tassi mantenendo il conteggio come risposta.
    Rapporto tra tassi\displaystyle e^{\beta_j}Effetto moltiplicativo sulla frequenza per unità di esposizione.
    Esposizione doppia\displaystyle t_i\mapsto2t_iA parità di tasso, il conteggio atteso raddoppia.

    Senza offset, un impianto osservato per dieci ore e uno osservato per cento ore verrebbero trattati come direttamente comparabili nei conteggi grezzi. L’offset evita questo errore: confronta intensità, non solo totali.

    Offset o covariata

    SceltaCoefficienteUso corretto
    Offset\displaystyle 1 fissatoL’esposizione scala meccanicamente il conteggio atteso.
    Covariata\displaystyle \beta_j stimatoL’effetto deve essere appreso dai dati.
    Trasformazione della risposta\displaystyle Y_i/t_iPossibile, ma può alterare varianza e distribuzione.
    Peso osservazionale\displaystyle w_iCambia il contributo alla stima, non la media attesa nello stesso modo.

    La domanda chiave è se l’effetto dell’esposizione sia noto per definizione. Se un periodo doppio di osservazione raddoppia il numero atteso di eventi, \log t_i è un offset naturale. Se invece l’effetto dell’esposizione è incerto o non proporzionale, va trattato con maggiore cautela.

    Dove compare

    ModelloOffset tipicoInterpretazione
    Regressione di Poisson\displaystyle \log t_iModello di tassi di evento.
    Regressione quasi-Poisson\displaystyle \log t_iTassi con correzione della dispersione.
    Regressione binomiale negativa\displaystyle \log t_iTassi sovradispersi.
    Poisson a effetti casuali\displaystyle \log t_{ij}Tassi con eterogeneità tra gruppi.
    Modelli zero-inflated o hurdle\displaystyle \log t_i nella parte di conteggioEsposizione corretta anche quando gli zeri sono modellati separatamente.

    In applicazioni ingegneristiche l’esposizione può essere un tempo macchina, una distanza percorsa, una superficie ispezionata, un volume processato o il numero di componenti soggetti a guasto.

    Errori comuni

    • Dimenticare l’offset: conteggi osservati su esposizioni diverse possono simulare sovradispersione o effetti di covariata inesistenti.
    • Inserire l’esposizione come covariata qualunque: se l’effetto deve essere proporzionale per definizione, il coefficiente va fissato a uno sulla scala logaritmica.
    • Usare \log t_i con esposizioni nulle: il logaritmo richiede t_i>0; esposizioni nulle vanno gestite a monte nella definizione del dato.
    • Interpretare i coefficienti come effetti sui conteggi grezzi: con offset logaritmico, i coefficienti descrivono effetti sui tassi.
    • Confondere offset e pesi: i pesi modificano il contributo delle osservazioni alla stima, mentre l’offset modifica il predittore della media.

    Vedi anche: modello lineare generalizzato, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, sovradispersione.

    Pubblicato: