Modello hurdle — ingegnerismo.it

Un modello hurdle è un modello per dati di conteggio che separa due domande: prima se l’osservazione supera la soglia zero, poi quanto vale il conteggio tra i casi positivi. È usato quando gli zeri non sono solo valori piccoli del processo di conteggio, ma rappresentano il mancato accesso a uno stato attivo.

È vicino al modello zero-inflated, ma non coincide con esso. Nel modello hurdle tutti gli zeri vengono dalla componente binaria; la componente di conteggio è invece troncata a valori positivi.

Struttura

Sia $\pi_i=P(Y_i=0\mid X_i)$ la probabilità di restare a zero. Se l’unità supera la soglia, il conteggio positivo viene modellato con una distribuzione troncata in zero:

P(Y_i=0)=\pi_i,

P(Y_i=y_i\mid Y_i>0) = \dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}, \qquad y_i=1,2,\dots

La probabilità non condizionata dei valori positivi è quindi:

P(Y_i=y_i)=(1-\pi_i) \dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}, \qquad y_i>0.

Componente	Formula	Significato
Stato zero	$\displaystyle P(Y_i=0)=\pi_i$	Probabilità di non superare la soglia.
Stato positivo	$\displaystyle P(Y_i>0)=1-\pi_i$	Probabilità che il conteggio sia attivo.
Conteggio positivo	$\displaystyle P(Y_i=y_i\mid Y_i>0)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}$	Distribuzione di conteggio troncata in zero.
Probabilità positiva totale	$\displaystyle P(Y_i=y_i)=(1-\pi_i)\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}$	Combina accesso allo stato positivo e intensità del conteggio.

Il nome “hurdle” richiama l’ostacolo iniziale: prima si attraversa la soglia tra zero e positivo, poi si modella l’ammontare del conteggio.

Specificazione con covariate

La parte binaria e la parte di conteggio possono usare covariate diverse. Questo è spesso il motivo principale per scegliere un modello hurdle.

Parte	Formula tipica	Interpretazione
Probabilità di zero	$\displaystyle \operatorname{logit}(\pi_i)=\gamma^T Z_i$	Modella la probabilità di non attivare il conteggio.
Probabilità di positivo	$\displaystyle P(Y_i>0)=1-\pi_i$	Evento di superamento della soglia.
Media dei positivi	$\displaystyle \log\mu_i=\beta^T X_i$	Intensità del conteggio una volta superato lo zero.
Conteggio troncato	$\displaystyle f_+(y_i)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)}$	Distribuzione condizionata a valori positivi.

Per esempio, in affidabilità un impianto può avere una componente che spiega se si verifica almeno un guasto e una componente distinta che spiega quanti guasti si osservano quando il guasto si manifesta.

Confronto con zero-inflated

Aspetto	Modello hurdle	Modello zero-inflated
Origine degli zeri	$\displaystyle P(Y=0)=\pi$	$\displaystyle P(Y=0)=\pi+(1-\pi)f(0;\theta)$
Componente conteggio	Troncata in zero.	Può generare anche zero.
Domanda principale	L’unità supera la soglia positiva?	Esiste uno stato strutturalmente zero?
Uso tipico	Partecipazione, attivazione, accesso a un evento.	Popolazione mista tra esposti e non esposti.

Nel modello hurdle non ci sono zeri prodotti dalla distribuzione di conteggio positiva. Nel modello zero-inflated, invece, uno zero può arrivare sia dalla componente strutturale sia dal processo ordinario di conteggio.

Quando usarlo

Segnale	Lettura	Scelta prudente
Molti zeri e positivi ben separati	Lo zero è uno stato qualitativamente diverso.	Valutare un modello hurdle.
Probabilità di positivo spiegata da covariate specifiche	Il passaggio da zero a positivo ha una dinamica propria.	Separare parte binaria e parte di conteggio.
Conteggi positivi sovradispersi	Anche tra i positivi resta variabilità extra.	Usare una componente positiva binomiale negativa troncata.
Zeri dovuti a non esposizione strutturale	Una quota non può generare conteggi.	Confrontare con modello zero-inflated.

Il modello è utile quando la soglia zero ha significato operativo: nessun guasto contro almeno un guasto, nessun accesso contro accesso, nessun sinistro contro sinistro avvenuto, nessun difetto contro difetti osservati.

Errori comuni

Confonderlo con zero-inflated: nel modello hurdle la componente di conteggio è positiva-troncata; nel modello zero-inflated può generare anche zero.
Usarlo solo perché ci sono molti zeri: serve una ragione sostanziale per separare zero e positivi.
Trascurare la componente positiva: dopo aver modellato l’accesso allo stato positivo, resta da spiegare l’intensità dei conteggi.
Dimenticare l’esposizione: conteggi raccolti su tempi o aree diverse richiedono offset o normalizzazioni coerenti.
Interpretare insieme coefficienti di parti diverse: i coefficienti della parte binaria e quelli della parte positiva rispondono a domande diverse.

Vedi anche: modello zero-inflated, sovradispersione, offset nei modelli lineari generalizzati, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello lineare generalizzato, massima verosimiglianza.