Modello hurdle

Indice dei contenuti

    Un modello hurdle è un modello per dati di conteggio che separa due domande: prima se l’osservazione supera la soglia zero, poi quanto vale il conteggio tra i casi positivi. È usato quando gli zeri non sono solo valori piccoli del processo di conteggio, ma rappresentano il mancato accesso a uno stato attivo.

    È vicino al modello zero-inflated, ma non coincide con esso. Nel modello hurdle tutti gli zeri vengono dalla componente binaria; la componente di conteggio è invece troncata a valori positivi.

    Struttura

    Sia \pi_i=P(Y_i=0\mid X_i) la probabilità di restare a zero. Se l’unità supera la soglia, il conteggio positivo viene modellato con una distribuzione troncata in zero:

    P(Y_i=0)=\pi_i,
    P(Y_i=y_i\mid Y_i>0) = \dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}, \qquad y_i=1,2,\dots

    La probabilità non condizionata dei valori positivi è quindi:

    P(Y_i=y_i)=(1-\pi_i) \dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}, \qquad y_i>0.
    ComponenteFormulaSignificato
    Stato zero\displaystyle P(Y_i=0)=\pi_iProbabilità di non superare la soglia.
    Stato positivo\displaystyle P(Y_i>0)=1-\pi_iProbabilità che il conteggio sia attivo.
    Conteggio positivo\displaystyle P(Y_i=y_i\mid Y_i>0)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}Distribuzione di conteggio troncata in zero.
    Probabilità positiva totale\displaystyle P(Y_i=y_i)=(1-\pi_i)\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}Combina accesso allo stato positivo e intensità del conteggio.

    Il nome “hurdle” richiama l’ostacolo iniziale: prima si attraversa la soglia tra zero e positivo, poi si modella l’ammontare del conteggio.

    Specificazione con covariate

    La parte binaria e la parte di conteggio possono usare covariate diverse. Questo è spesso il motivo principale per scegliere un modello hurdle.

    ParteFormula tipicaInterpretazione
    Probabilità di zero\displaystyle \operatorname{logit}(\pi_i)=\gamma^T Z_iModella la probabilità di non attivare il conteggio.
    Probabilità di positivo\displaystyle P(Y_i>0)=1-\pi_iEvento di superamento della soglia.
    Media dei positivi\displaystyle \log\mu_i=\beta^T X_iIntensità del conteggio una volta superato lo zero.
    Conteggio troncato\displaystyle f_+(y_i)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}Distribuzione condizionata a valori positivi.

    Per esempio, in affidabilità un impianto può avere una componente che spiega se si verifica almeno un guasto e una componente distinta che spiega quanti guasti si osservano quando il guasto si manifesta.

    Confronto con zero-inflated

    AspettoModello hurdleModello zero-inflated
    Origine degli zeri\displaystyle P(Y=0)=\pi\displaystyle P(Y=0)=\pi+(1-\pi)f(0;\theta)
    Componente conteggioTroncata in zero.Può generare anche zero.
    Domanda principaleL’unità supera la soglia positiva?Esiste uno stato strutturalmente zero?
    Uso tipicoPartecipazione, attivazione, accesso a un evento.Popolazione mista tra esposti e non esposti.

    Nel modello hurdle non ci sono zeri prodotti dalla distribuzione di conteggio positiva. Nel modello zero-inflated, invece, uno zero può arrivare sia dalla componente strutturale sia dal processo ordinario di conteggio.

    Quando usarlo

    SegnaleLetturaScelta prudente
    Molti zeri e positivi ben separatiLo zero è uno stato qualitativamente diverso.Valutare un modello hurdle.
    Probabilità di positivo spiegata da covariate specificheIl passaggio da zero a positivo ha una dinamica propria.Separare parte binaria e parte di conteggio.
    Conteggi positivi sovradispersiAnche tra i positivi resta variabilità extra.Usare una componente positiva binomiale negativa troncata.
    Zeri dovuti a non esposizione strutturaleUna quota non può generare conteggi.Confrontare con modello zero-inflated.

    Il modello è utile quando la soglia zero ha significato operativo: nessun guasto contro almeno un guasto, nessun accesso contro accesso, nessun sinistro contro sinistro avvenuto, nessun difetto contro difetti osservati.

    Errori comuni

    • Confonderlo con zero-inflated: nel modello hurdle la componente di conteggio è positiva-troncata; nel modello zero-inflated può generare anche zero.
    • Usarlo solo perché ci sono molti zeri: serve una ragione sostanziale per separare zero e positivi.
    • Trascurare la componente positiva: dopo aver modellato l’accesso allo stato positivo, resta da spiegare l’intensità dei conteggi.
    • Dimenticare l’esposizione: conteggi raccolti su tempi o aree diverse richiedono offset o normalizzazioni coerenti.
    • Interpretare insieme coefficienti di parti diverse: i coefficienti della parte binaria e quelli della parte positiva rispondono a domande diverse.

    Vedi anche: modello zero-inflated, sovradispersione, offset nei modelli lineari generalizzati, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello lineare generalizzato, massima verosimiglianza.

    Pubblicato: