Un modello hurdle è un modello per dati di conteggio che separa due domande: prima se l’osservazione supera la soglia zero, poi quanto vale il conteggio tra i casi positivi. È usato quando gli zeri non sono solo valori piccoli del processo di conteggio, ma rappresentano il mancato accesso a uno stato attivo.
È vicino al modello zero-inflated, ma non coincide con esso. Nel modello hurdle tutti gli zeri vengono dalla componente binaria; la componente di conteggio è invece troncata a valori positivi.
Struttura
Sia \pi_i=P(Y_i=0\mid X_i) la probabilità di restare a zero. Se l’unità supera la soglia, il conteggio positivo viene modellato con una distribuzione troncata in zero:
La probabilità non condizionata dei valori positivi è quindi:
| Componente | Formula | Significato |
|---|---|---|
| Stato zero | \displaystyle P(Y_i=0)=\pi_i | Probabilità di non superare la soglia. |
| Stato positivo | \displaystyle P(Y_i>0)=1-\pi_i | Probabilità che il conteggio sia attivo. |
| Conteggio positivo | \displaystyle P(Y_i=y_i\mid Y_i>0)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)} | Distribuzione di conteggio troncata in zero. |
| Probabilità positiva totale | \displaystyle P(Y_i=y_i)=(1-\pi_i)\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)} | Combina accesso allo stato positivo e intensità del conteggio. |
Il nome “hurdle” richiama l’ostacolo iniziale: prima si attraversa la soglia tra zero e positivo, poi si modella l’ammontare del conteggio.
Specificazione con covariate
La parte binaria e la parte di conteggio possono usare covariate diverse. Questo è spesso il motivo principale per scegliere un modello hurdle.
| Parte | Formula tipica | Interpretazione |
|---|---|---|
| Probabilità di zero | \displaystyle \operatorname{logit}(\pi_i)=\gamma^T Z_i | Modella la probabilità di non attivare il conteggio. |
| Probabilità di positivo | \displaystyle P(Y_i>0)=1-\pi_i | Evento di superamento della soglia. |
| Media dei positivi | \displaystyle \log\mu_i=\beta^T X_i | Intensità del conteggio una volta superato lo zero. |
| Conteggio troncato | \displaystyle f_+(y_i)=\dfrac{f(y_i;\theta_i)}{1-f(0;\theta_i)} | Distribuzione condizionata a valori positivi. |
Per esempio, in affidabilità un impianto può avere una componente che spiega se si verifica almeno un guasto e una componente distinta che spiega quanti guasti si osservano quando il guasto si manifesta.
Confronto con zero-inflated
| Aspetto | Modello hurdle | Modello zero-inflated |
|---|---|---|
| Origine degli zeri | \displaystyle P(Y=0)=\pi | \displaystyle P(Y=0)=\pi+(1-\pi)f(0;\theta) |
| Componente conteggio | Troncata in zero. | Può generare anche zero. |
| Domanda principale | L’unità supera la soglia positiva? | Esiste uno stato strutturalmente zero? |
| Uso tipico | Partecipazione, attivazione, accesso a un evento. | Popolazione mista tra esposti e non esposti. |
Nel modello hurdle non ci sono zeri prodotti dalla distribuzione di conteggio positiva. Nel modello zero-inflated, invece, uno zero può arrivare sia dalla componente strutturale sia dal processo ordinario di conteggio.
Quando usarlo
| Segnale | Lettura | Scelta prudente |
|---|---|---|
| Molti zeri e positivi ben separati | Lo zero è uno stato qualitativamente diverso. | Valutare un modello hurdle. |
| Probabilità di positivo spiegata da covariate specifiche | Il passaggio da zero a positivo ha una dinamica propria. | Separare parte binaria e parte di conteggio. |
| Conteggi positivi sovradispersi | Anche tra i positivi resta variabilità extra. | Usare una componente positiva binomiale negativa troncata. |
| Zeri dovuti a non esposizione strutturale | Una quota non può generare conteggi. | Confrontare con modello zero-inflated. |
Il modello è utile quando la soglia zero ha significato operativo: nessun guasto contro almeno un guasto, nessun accesso contro accesso, nessun sinistro contro sinistro avvenuto, nessun difetto contro difetti osservati.
Errori comuni
- Confonderlo con zero-inflated: nel modello hurdle la componente di conteggio è positiva-troncata; nel modello zero-inflated può generare anche zero.
- Usarlo solo perché ci sono molti zeri: serve una ragione sostanziale per separare zero e positivi.
- Trascurare la componente positiva: dopo aver modellato l’accesso allo stato positivo, resta da spiegare l’intensità dei conteggi.
- Dimenticare l’esposizione: conteggi raccolti su tempi o aree diverse richiedono offset o normalizzazioni coerenti.
- Interpretare insieme coefficienti di parti diverse: i coefficienti della parte binaria e quelli della parte positiva rispondono a domande diverse.
Vedi anche: modello zero-inflated, sovradispersione, offset nei modelli lineari generalizzati, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello lineare generalizzato, massima verosimiglianza.