Modello zero-inflated — ingegnerismo.it

Un modello zero-inflated è un modello per dati di conteggio in cui gli zeri osservati possono nascere da due meccanismi distinti: un meccanismo strutturale che produce sempre zero e un normale processo di conteggio che può produrre zero oppure valori positivi. È utile quando regressione di Poisson, regressione quasi-Poisson o regressione binomiale negativa non spiegano la massa anomala in corrispondenza di $0$ .

L’idea è diversa dalla sola sovradispersione: non si tratta soltanto di aumentare la varianza, ma di riconoscere che una parte della popolazione può essere non esposta al conteggio.

Struttura

Sia $\pi_i$ la probabilità che l’osservazione $i$ appartenga allo stato strutturalmente zero. Sia invece $f(y_i;\theta_i)$ la distribuzione di conteggio ordinaria, per esempio Poisson o binomiale negativa.

P(Y_i=0)=\pi_i+(1-\pi_i)f(0;\theta_i),

mentre per valori positivi:

P(Y_i=y_i)=(1-\pi_i)f(y_i;\theta_i), \qquad y_i>0.

Componente	Formula	Significato
Stato zero strutturale	$\displaystyle \pi_i$	Probabilità che l’unità non possa generare conteggi positivi.
Stato di conteggio	$\displaystyle 1-\pi_i$	Probabilità che l’unità segua il processo di conteggio ordinario.
Massa in zero	$\displaystyle P(Y_i=0)=\pi_i+(1-\pi_i)f(0;\theta_i)$	Somma degli zeri strutturali e degli zeri generati dal conteggio.
Massa positiva	$\displaystyle P(Y_i=y_i)=(1-\pi_i)f(y_i;\theta_i)$	Probabilità dei valori positivi prodotta solo dalla componente di conteggio.

Questa struttura è una miscela: prima si decide se l’unità è nello stato sempre zero, poi, se non lo è, si applica il modello di conteggio.

Specificazione con covariate

In applicazioni ingegneristiche le due componenti possono avere covariate diverse. La probabilità di zero strutturale viene spesso modellata con una regressione logistica, mentre la media del conteggio usa un link logaritmico.

Parte del modello	Formula tipica	Lettura
Zero strutturale	$\displaystyle \operatorname{logit}(\pi_i)=\gamma^T Z_i$	Modella la probabilità che l’unità sia sempre zero.
Media del conteggio	$\displaystyle \log\mu_i=\beta^T X_i$	Modella l’intensità del processo di conteggio tra le unità esposte.
ZIP	$\displaystyle f(y_i;\theta_i)=\operatorname{Poisson}(\mu_i)$	Zero-inflated Poisson.
ZINB	$\displaystyle f(y_i;\theta_i)=\operatorname{NB}(\mu_i,\alpha)$	Zero-inflated negative binomial, utile se resta dispersione extra.

Le covariate $Z_i$ e $X_i$ possono coincidere, ma non devono per forza. In manutenzione, ad esempio, una variabile può spiegare la possibilità stessa di guasto, mentre un’altra può spiegare il numero di guasti tra le unità effettivamente a rischio.

Quando usarlo

Segnale nei dati	Interpretazione	Modello da valutare
Molti zeri oltre il previsto	Esiste una quota di unità non esposte o inattive.	Zero-inflated Poisson o zero-inflated binomiale negativa.
Zeri e positivi generati da processi distinti	La popolazione non è omogenea.	Modello a due componenti.
Sovradispersione senza picco anomalo in zero	La varianza è alta, ma gli zeri non dominano.	Regressione quasi-Poisson o regressione binomiale negativa.
Valori positivi sempre separati dagli zeri	Lo zero è una soglia di partecipazione.	Modello hurdle.

La scelta va guidata dalla natura del processo. In un sensore industriale, molti zeri possono indicare macchine spente, periodi senza esposizione o eventi fisicamente impossibili in certe condizioni. In questi casi lo zero non è solo un conteggio piccolo.

Confronto con modelli vicini

Modello	Idea	Quando è più adatto
Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=E[Y\mid X]$	Conteggi omogenei, senza zeri anomali.
Quasi-Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Inferenza prudente quando la media Poisson è accettabile.
Binomiale negativa	$\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2$	Conteggi sovradispersi per eterogeneità non osservata.
Zero-inflated	$\displaystyle P(Y=0)$ aumentata da una componente strutturale	Zeri in eccesso con possibile popolazione non esposta.
Hurdle	$\displaystyle P(Y=0)$ separata dai positivi	Processo di accesso allo stato positivo distinto dall’intensità dei positivi.

Un modello zero-inflated può usare Poisson o binomiale negativa come componente di conteggio. Per questo non è un’alternativa semplice a Poisson o binomiale negativa, ma una struttura a miscela costruita sopra una distribuzione di conteggio.

Errori comuni

Usarlo per ogni sovradispersione: zeri in eccesso e varianza alta sono fenomeni collegati, ma non equivalenti.
Ignorare l’esposizione: se alcuni zeri dipendono da tempi o aree di osservazione nulli, prima va corretta la definizione del dato e valutato l’offset.
Interpretare $\pi_i$ come probabilità di osservare zero: $\pi_i$ è la probabilità dello stato strutturalmente zero; la probabilità totale di osservare zero include anche $f(0;\theta_i)$ .
Mettere le stesse covariate ovunque senza ragione: la componente zero e la componente conteggio possono rispondere a meccanismi diversi.
Dimenticare la validazione: un modello più complesso può adattare meglio gli zeri ma peggiorare interpretabilità e stabilità fuori campione.

Vedi anche: modello hurdle, sovradispersione, offset nei modelli lineari generalizzati, regressione di Poisson, regressione quasi-Poisson, regressione binomiale negativa, modello lineare generalizzato, massima verosimiglianza.