Un modello zero-inflated è un modello per dati di conteggio in cui gli zeri osservati possono nascere da due meccanismi distinti: un meccanismo strutturale che produce sempre zero e un normale processo di conteggio che può produrre zero oppure valori positivi. È utile quando regressione di Poisson, regressione quasi-Poisson o regressione binomiale negativa non spiegano la massa anomala in corrispondenza di 0.
L’idea è diversa dalla sola sovradispersione: non si tratta soltanto di aumentare la varianza, ma di riconoscere che una parte della popolazione può essere non esposta al conteggio.
Struttura
Sia \pi_i la probabilità che l’osservazione i appartenga allo stato strutturalmente zero. Sia invece f(y_i;\theta_i) la distribuzione di conteggio ordinaria, per esempio Poisson o binomiale negativa.
mentre per valori positivi:
| Componente | Formula | Significato |
|---|---|---|
| Stato zero strutturale | \displaystyle \pi_i | Probabilità che l’unità non possa generare conteggi positivi. |
| Stato di conteggio | \displaystyle 1-\pi_i | Probabilità che l’unità segua il processo di conteggio ordinario. |
| Massa in zero | \displaystyle P(Y_i=0)=\pi_i+(1-\pi_i)f(0;\theta_i) | Somma degli zeri strutturali e degli zeri generati dal conteggio. |
| Massa positiva | \displaystyle P(Y_i=y_i)=(1-\pi_i)f(y_i;\theta_i) | Probabilità dei valori positivi prodotta solo dalla componente di conteggio. |
Questa struttura è una miscela: prima si decide se l’unità è nello stato sempre zero, poi, se non lo è, si applica il modello di conteggio.
Specificazione con covariate
In applicazioni ingegneristiche le due componenti possono avere covariate diverse. La probabilità di zero strutturale viene spesso modellata con una regressione logistica, mentre la media del conteggio usa un link logaritmico.
| Parte del modello | Formula tipica | Lettura |
|---|---|---|
| Zero strutturale | \displaystyle \operatorname{logit}(\pi_i)=\gamma^T Z_i | Modella la probabilità che l’unità sia sempre zero. |
| Media del conteggio | \displaystyle \log\mu_i=\beta^T X_i | Modella l’intensità del processo di conteggio tra le unità esposte. |
| ZIP | \displaystyle f(y_i;\theta_i)=\operatorname{Poisson}(\mu_i) | Zero-inflated Poisson. |
| ZINB | \displaystyle f(y_i;\theta_i)=\operatorname{NB}(\mu_i,\alpha) | Zero-inflated negative binomial, utile se resta dispersione extra. |
Le covariate Z_i e X_i possono coincidere, ma non devono per forza. In manutenzione, ad esempio, una variabile può spiegare la possibilità stessa di guasto, mentre un’altra può spiegare il numero di guasti tra le unità effettivamente a rischio.
Quando usarlo
| Segnale nei dati | Interpretazione | Modello da valutare |
|---|---|---|
| Molti zeri oltre il previsto | Esiste una quota di unità non esposte o inattive. | Zero-inflated Poisson o zero-inflated binomiale negativa. |
| Zeri e positivi generati da processi distinti | La popolazione non è omogenea. | Modello a due componenti. |
| Sovradispersione senza picco anomalo in zero | La varianza è alta, ma gli zeri non dominano. | Regressione quasi-Poisson o regressione binomiale negativa. |
| Valori positivi sempre separati dagli zeri | Lo zero è una soglia di partecipazione. | Modello hurdle. |
La scelta va guidata dalla natura del processo. In un sensore industriale, molti zeri possono indicare macchine spente, periodi senza esposizione o eventi fisicamente impossibili in certe condizioni. In questi casi lo zero non è solo un conteggio piccolo.
Confronto con modelli vicini
| Modello | Idea | Quando è più adatto |
|---|---|---|
| Poisson | \displaystyle \operatorname{Var}(Y\mid X)=E[Y\mid X] | Conteggi omogenei, senza zeri anomali. |
| Quasi-Poisson | \displaystyle \operatorname{Var}(Y\mid X)=\phi\mu | Inferenza prudente quando la media Poisson è accettabile. |
| Binomiale negativa | \displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2 | Conteggi sovradispersi per eterogeneità non osservata. |
| Zero-inflated | \displaystyle P(Y=0) aumentata da una componente strutturale | Zeri in eccesso con possibile popolazione non esposta. |
| Hurdle | \displaystyle P(Y=0) separata dai positivi | Processo di accesso allo stato positivo distinto dall’intensità dei positivi. |
Un modello zero-inflated può usare Poisson o binomiale negativa come componente di conteggio. Per questo non è un’alternativa semplice a Poisson o binomiale negativa, ma una struttura a miscela costruita sopra una distribuzione di conteggio.
Errori comuni
- Usarlo per ogni sovradispersione: zeri in eccesso e varianza alta sono fenomeni collegati, ma non equivalenti.
- Ignorare l’esposizione: se alcuni zeri dipendono da tempi o aree di osservazione nulli, prima va corretta la definizione del dato e valutato l’offset.
- Interpretare \pi_i come probabilità di osservare zero: \pi_i è la probabilità dello stato strutturalmente zero; la probabilità totale di osservare zero include anche f(0;\theta_i).
- Mettere le stesse covariate ovunque senza ragione: la componente zero e la componente conteggio possono rispondere a meccanismi diversi.
- Dimenticare la validazione: un modello più complesso può adattare meglio gli zeri ma peggiorare interpretabilità e stabilità fuori campione.
Vedi anche: modello hurdle, sovradispersione, offset nei modelli lineari generalizzati, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello lineare generalizzato, massima verosimiglianza.