Modello gerarchico — ingegnerismo.it

Un modello gerarchico organizza parametri e osservazioni su più livelli. Una forma bayesiana tipica è:

y_{ij}\sim p(y\mid\theta_i), \qquad \theta_i\sim p(\theta\mid\phi), \qquad \phi\sim p(\phi).

Il modello cattura variabilità tra gruppi e dentro gruppi. Il vantaggio operativo è il pooling parziale: i gruppi con pochi dati vengono stabilizzati dall’informazione condivisa, senza forzarli a essere identici.

È usato in affidabilità, biostatistica, qualità, sensori e dati multi-sito.

Struttura a livelli

Un modello gerarchico separa almeno tre piani:

livello osservazionale, che descrive i dati dati i parametri locali;
livello dei gruppi, che descrive come i parametri locali variano tra unità;
livello degli iperparametri, che governa la popolazione dei gruppi.

Per esempio, se $y_{ij}$ è l’osservazione $j$ del gruppo $i$ , si può scrivere:

y_{ij}\mid\theta_i,\sigma^2 \sim \mathcal{N}(\theta_i,\sigma^2),

\theta_i\mid\mu,\tau^2 \sim \mathcal{N}(\mu,\tau^2).

Qui $\sigma^2$ descrive la variabilità entro gruppo, mentre $\tau^2$ descrive la variabilità tra gruppi.

Pooling completo, nessun pooling e pooling parziale

Senza pooling si stima un parametro separato per ogni gruppo, ignorando l’informazione condivisa. È una scelta fragile quando alcuni gruppi hanno pochi dati. Con pooling completo si forza un unico parametro comune per tutti i gruppi, ignorando differenze reali.

Il modello gerarchico produce pooling parziale: le stime dei gruppi vengono tirate verso la media comune, ma non collassano tutte allo stesso valore. L’entità dello shrinkage dipende dal rapporto tra incertezza locale e variabilità tra gruppi.

In un modello normale semplice, la stima di gruppo ha forma qualitativa

\hat\theta_i \approx w_i\bar y_i+(1-w_i)\hat\mu,

dove $w_i$ cresce con la numerosità del gruppo e con la precisione dei dati locali. Gruppi piccoli vengono stabilizzati di più; gruppi grandi parlano maggiormente con i propri dati.

Interpretazione bayesiana

Nella formulazione bayesiana, il modello gerarchico assegna distribuzioni prior agli iperparametri:

\mu\sim p(\mu), \qquad \tau\sim p(\tau).

La distribuzione a posteriori congiunta è proporzionale a

p(\mu,\tau,\theta\mid y) \propto p(\mu)p(\tau) \prod_i p(\theta_i\mid\mu,\tau) \prod_{i,j}p(y_{ij}\mid\theta_i).

Questa struttura è naturale per inferenza bayesiana perché esplicita incertezza a ogni livello e propaga l’informazione tra gruppi.

Applicazioni

I modelli gerarchici sono utili quando i dati sono raggruppati: pazienti in ospedali, misure in sensori, prodotti in lotti, componenti in famiglie, prove in laboratori diversi, scuole, siti produttivi, unità territoriali.

In affidabilità, per esempio, componenti simili ma non identici possono condividere una distribuzione comune dei tassi di guasto. In controllo qualità, linee produttive diverse possono avere effetti specifici ma appartenere a una stessa popolazione tecnica.

Stima e calcolo

La stima può essere frequentista, con modelli a effetti misti, oppure bayesiana, con MCMC o inferenza variazionale. Nei modelli bayesiani complessi si usano spesso campionatore di Gibbs, Metropolis-Hastings o Hamiltonian Monte Carlo.

La scelta della parametrizzazione è importante. Nei modelli gerarchici con gruppi debolmente informativi, una parametrizzazione centrata può mescolare male; una parametrizzazione non centrata può migliorare molto la geometria della posteriore.

Diagnostica

Occorre controllare la variabilità tra gruppi, la sensibilità alle prior, le distribuzioni posteriori degli effetti e la capacità predittiva. La distribuzione predittiva è particolarmente utile: permette di chiedere se il modello genera dati plausibili sia entro gruppo sia tra gruppi.

Se $\tau$ viene stimato vicino a zero, il modello suggerisce gruppi molto simili; se è grande, i gruppi sono molto eterogenei. Entrambe le conclusioni vanno confrontate con conoscenza del dominio e qualità dei dati.

Errori comuni

Un errore frequente è usare effetti di gruppo come se fossero stime indipendenti perfette. Nel modello gerarchico sono stime regolarizzate e dipendono dalla popolazione comune. Un altro errore è introdurre livelli gerarchici senza dati sufficienti per identificarli: il modello può diventare formalmente elegante ma praticamente debole.

Il modello gerarchico è potente quando la struttura dei dati è realmente multilivello. Non va usato come decorazione statistica, ma come rappresentazione esplicita di dipendenze e variabilità a scale diverse.