Inferenza bayesiana — ingegnerismo.it

L’inferenza bayesiana è un approccio all’inferenza statistica in cui i parametri ignoti sono trattati come quantità incerte descritte da distribuzioni di probabilità. L’informazione iniziale è codificata nella distribuzione a priori; i dati entrano attraverso la verosimiglianza; il risultato è la distribuzione a posteriori.

La relazione fondamentale è:

\pi(\theta\mid x)=\frac{L(\theta;x)\pi(\theta)}{p(x)}.

dove $\theta$ è il parametro, $x$ sono i dati, $\pi(\theta)$ è la prior, $L(\theta;x)=p(x\mid\theta)$ è la verosimiglianza e $p(x)$ è l’evidenza o verosimiglianza marginale:

p(x)=\int L(\theta;x)\pi(\theta)\,d\theta.

Spesso si scrive in forma proporzionale:

\pi(\theta\mid x)\propto L(\theta;x)\pi(\theta),

perché $p(x)$ non dipende da $\theta$ e serve solo a normalizzare la distribuzione.

Interpretazione

Il punto operativo dell’inferenza bayesiana è che l’incertezza resta espressa come distribuzione, non solo come stima puntuale o intervallo. Dopo aver osservato i dati, si può calcolare una media a posteriori, una mediana, una moda, un intervallo credibile o una probabilità diretta del tipo:

\Pr(\theta>\theta_0\mid x).

Questa lettura è diversa da quella frequentista: nel quadro bayesiano, dato il modello, il parametro incerto può essere descritto probabilisticamente condizionando sui dati osservati.

Prior, likelihood e posterior

La prior rappresenta l’informazione disponibile prima dei dati del problema corrente. Può essere informativa, debolmente informativa o scelta per avere proprietà di regolarizzazione. La verosimiglianza misura quanto i dati osservati siano compatibili con valori diversi del parametro. La posterior combina entrambe.

Se la prior è troppo forte rispetto ai dati, può dominare il risultato; se è troppo vaga in un problema poco identificabile, la posterior può restare ampia o instabile. Per questo in applicazioni ingegneristiche è buona pratica fare analisi di sensibilità rispetto alla prior.

Predizione e decisione

Per predire una nuova osservazione $\tilde x$ , si usa la distribuzione predittiva a posteriori:

p(\tilde x\mid x)=\int p(\tilde x\mid\theta)\pi(\theta\mid x)\,d\theta.

Questa formula propaga l’incertezza sui parametri nella previsione. È utile in affidabilità, controllo qualità, diagnostica, modelli gerarchici, manutenzione predittiva e apprendimento automatico.

Confronto tra modelli

Nel confronto tra modelli, la quantità chiave è la verosimiglianza marginale. Il rapporto tra due evidenze marginali produce il fattore di Bayes, che aggiorna gli odds a priori tra modelli in odds posteriori.

\frac{\Pr(M_1\mid x)}{\Pr(M_2\mid x)} = \frac{p(x\mid M_1)}{p(x\mid M_2)} \frac{\Pr(M_1)}{\Pr(M_2)}.

Un errore comune è ridurre il bayesiano a “scegliere una prior soggettiva”. La prior è solo una componente del metodo: la parte centrale è l’aggiornamento coerente dell’incertezza tramite il teorema di Bayes e la propagazione della posterior nelle stime, nelle predizioni e nelle decisioni.