Inferenza variazionale — ingegnerismo.it

L’inferenza variazionale approssima una distribuzione a posteriori complessa con una distribuzione $q_\phi$ scelta in una famiglia parametrica più semplice.

L’ottimizzazione massimizza spesso l’ELBO:

\operatorname{ELBO}(q)=E_q[\log p(x,\theta)]-E_q[\log q(\theta)].

È in genere più rapida dell’MCMC e adatta a dataset grandi, ma introduce errore di approssimazione. Le varianti mean-field possono sottostimare dipendenze e incertezza, quindi sono da verificare con diagnostica predittiva o confronto campionario.

Problema bayesiano di partenza

Nel modello bayesiano si vuole calcolare

p(\theta\mid x)= \dfrac{p(x,\theta)}{p(x)},

dove $\theta$ indica parametri o variabili latenti, $x$ i dati osservati e

p(x)=\int p(x,\theta)\,d\theta

è l’evidenza marginale. Il problema è che questo integrale è spesso intrattabile: modelli gerarchici, reti bayesiane, modelli latenti ad alta dimensione e grandi dataset rendono difficile ottenere la posteriore esatta.

L’inferenza variazionale sostituisce quindi la domanda “qual è la posteriore esatta?” con “qual è la migliore approssimazione dentro una famiglia gestibile $\mathcal{Q}$ ?”.

Distanza dalla posteriore ed ELBO

Si sceglie una distribuzione candidata $q_\phi(\theta)$ e si ottimizzano i parametri variazionali $\phi$ . Una formulazione comune minimizza la divergenza di Kullback-Leibler

\operatorname{KL}\!\left(q_\phi(\theta)\,\|\,p(\theta\mid x)\right) = E_q\!\left[ \log\dfrac{q_\phi(\theta)}{p(\theta\mid x)} \right].

Poiché $p(\theta\mid x)$ contiene l’evidenza $p(x)$ non nota, si massimizza invece l’ELBO, cioè una lower bound del log-evidence:

\log p(x)= \operatorname{ELBO}(q) + \operatorname{KL}\!\left(q(\theta)\,\|\,p(\theta\mid x)\right).

Dato che la divergenza KL è non negativa, vale

\operatorname{ELBO}(q)\le \log p(x).

Massimizzare l’ELBO equivale quindi a ridurre la distanza tra $q$ e la posteriore, almeno nella direzione della KL scelta.

Termine di accuratezza e termine di regolarizzazione

L’ELBO può essere scritta come

\operatorname{ELBO}(q) = E_q[\log p(x\mid\theta)] - \operatorname{KL}\!\left(q(\theta)\,\|\,p(\theta)\right).

Il primo termine premia distribuzioni che spiegano bene i dati; il secondo impedisce a $q$ di allontanarsi troppo dalla prior. Questa decomposizione chiarisce l’interpretazione ingegneristica: si cerca una rappresentazione probabilistica compatta che bilanci adattamento ai dati e complessità.

Famiglie variazionali

La scelta della famiglia $\mathcal{Q}$ è il cuore del metodo. Nelle approssimazioni mean-field si assume una fattorizzazione del tipo

q(\theta)=\prod_{j=1}^m q_j(\theta_j).

Questa scelta semplifica molto i calcoli, ma indebolisce la capacità di rappresentare dipendenze posteriori tra parametri. In modelli con correlazioni forti, vincoli o posteriori multimodali, l’approssimazione può diventare troppo sicura: intervalli credibili stretti non sono necessariamente sinonimo di informazione reale.

Famiglie più ricche, come approssimazioni gaussiane piene, normalizing flows o distribuzioni ammortizzate da reti neurali, riducono parte di questo limite al costo di maggiore complessità computazionale.

Ottimizzazione

Nei modelli con struttura coniugata, l’ELBO può essere ottimizzata con aggiornamenti coordinati. In molti modelli moderni si usa invece ottimizzazione stocastica basata su gradienti:

\phi^{(t+1)} = \phi^{(t)} + \eta_t\nabla_\phi \operatorname{ELBO}(\phi^{(t)}).

Quando la distribuzione lo consente, il trucco di riparametrizzazione scrive una variabile casuale come

\theta=g_\phi(\varepsilon), \qquad \varepsilon\sim p(\varepsilon),

rendendo più stabile la stima del gradiente dell’obiettivo.

Diagnostica e uso operativo

L’inferenza variazionale è utile quando MCMC sarebbe troppo costoso: grandi dataset, modelli latenti estesi, pipeline di apprendimento automatico, aggiornamenti frequenti. Il prezzo è che l’errore non è solo numerico ma anche modellistico: dipende dalla famiglia scelta, dall’ottimizzazione e dalla direzione della KL.

Per questo una buona pratica è controllare la qualità predittiva tramite distribuzione predittiva, confrontare alcuni casi con campionamento quando possibile e monitorare stabilità dell’ELBO, sensibilità all’inizializzazione e calibrazione dell’incertezza.

Errori comuni

Un errore frequente è interpretare l’ELBO alta come garanzia assoluta di buona inferenza. L’ELBO confronta distribuzioni dentro la famiglia scelta: se la famiglia è povera, anche l’ottimo può essere lontano dalla posteriore reale. Un secondo errore è dimenticare che la KL diretta $\operatorname{KL}(q\|p)$ tende a evitare regioni di bassa densità e può concentrarsi su una sola moda della posteriore.

L’inferenza variazionale non sostituisce la modellazione bayesiana: è una tecnica computazionale per renderla praticabile. Funziona bene quando la struttura dell’approssimazione è coerente con il problema e quando le conclusioni sono verificate con diagnostica, simulazioni posteriori e controlli predittivi.