Inferenza bayesiana e priori coniugate: esercizi svolti

L’inferenza bayesiana tratta i parametri come variabili aleatorie: si parte da una distribuzione a priori, la si aggiorna con i dati tramite il teorema di Bayes e si ottiene la distribuzione a posteriori. Le priori coniugate rendono il calcolo analitico. Questa scheda allena l’aggiornamento bayesiano nei casi coniugati classici.

Regola di Bayes per parametri: $\;\pi(\theta\mid x)\propto L(x\mid\theta)\,\pi(\theta)$ , cioè posteriori ∝ verosimiglianza × priori.

1. Logica dell’aggiornamento bayesiano

Esercizio. Spiegare il ruolo di priori, verosimiglianza e posteriori.

L’inferenza bayesiana combina:

priori $\pi(\theta)$ : la conoscenza sul parametro prima dei dati;
verosimiglianza $L(x\mid\theta)$ : l’informazione portata dai dati;
posteriori $\pi(\theta\mid x)$ : la conoscenza aggiornata dopo i dati.

A differenza dell’approccio frequentista (parametro fisso ignoto), il bayesiano descrive l’incertezza sul parametro con una distribuzione. Più dati ⇒ posteriori più concentrata.

2. Coniugata Beta-Binomiale

Esercizio. Una proporzione $p$ ha priori $\text{Beta}(2,2)$ . Si osservano $8$ successi su $10$ prove. Trovare la posteriori.

Per il modello Binomiale con priori Beta, la posteriori è ancora Beta con parametri aggiornati:

$\text{Beta}(\alpha+\text{successi},\ \beta+\text{insuccessi})=\text{Beta}(2+8,\ 2+2)=\text{Beta}(10,\ 4).$

La Beta è coniugata alla Binomiale: priori Beta + dati binomiali = posteriori Beta. I dati spostano i parametri sommando successi e insuccessi.

3. Stima puntuale bayesiana

Esercizio. Per la posteriori $\text{Beta}(10,4)$ del punto 2, calcolare la media a posteriori.

La media di una $\text{Beta}(\alpha,\beta)$ è $\alpha/(\alpha+\beta)$ :

$E[p\mid x]=\dfrac{10}{10+4}=\dfrac{10}{14}=0{,}714.$

La stima bayesiana ( $0{,}714$ ) è tra la priori ( $2/4=0{,}5$ ) e la frequenza osservata ( $8/10=0{,}8$ ): un compromesso pesato. Con più dati, la posteriori si avvicina alla frequenza campionaria.

4. Effetto della priori

Esercizio. Con la stessa osservazione ( $8/10$ ) ma priori più informativa $\text{Beta}(20,20)$ , come cambia la stima?

Posteriori: $\text{Beta}(20+8,\ 20+2)=\text{Beta}(28,\ 22)$ .

$E[p\mid x]=\dfrac{28}{50}=0{,}56.$

Con priori forte ( $\text{Beta}(20,20)$ , equivalente a 40 osservazioni virtuali), la stima resta vicina a $0{,}5$ : i 10 dati “pesano” poco. Una priori più informativa resiste ai dati; una vaga li lascia dominare.

5. Coniugata Gamma-Poisson

Esercizio. Un tasso $\lambda$ ha priori $\text{Gamma}(3,1)$ (forma, rate). Si osservano in totale $12$ eventi in $4$ periodi. Trovare la posteriori.

Per dati di Poisson con priori Gamma, la posteriori è Gamma aggiornata:

$\text{Gamma}(\alpha+\textstyle\sum x_i,\ \beta+n)=\text{Gamma}(3+12,\ 1+4)=\text{Gamma}(15,\ 5).$

Media a posteriori $=\alpha/\beta=15/5=3{,}0$ . La Gamma è coniugata alla Poisson: somma degli eventi al parametro forma, numero di periodi al rate.

6. Intervallo di credibilità

Esercizio. Distinguere l’intervallo di credibilità bayesiano dall’intervallo di confidenza frequentista.

L’intervallo di credibilità al $95\%$ è un intervallo che contiene il parametro con probabilità $0{,}95$ secondo la posteriori:

$P(a\le\theta\le b\mid x)=0{,}95.$

A differenza dell’intervallo di confidenza (che riguarda la procedura su campioni ripetuti), il credibile dà una probabilità diretta sul parametro — l’interpretazione che spesso si attribuisce erroneamente all’intervallo di confidenza. È un vantaggio interpretativo dell’approccio bayesiano.

7. Stima MAP per una Beta

Esercizio. Per la posteriori $\text{Beta}(10,4)$ , calcolare la stima MAP (massimo a posteriori).

Per una $\text{Beta}(\alpha,\beta)$ con $\alpha>1$ e $\beta>1$ , la moda è:

\hat p_{MAP}=\dfrac{\alpha-1}{\alpha+\beta-2}.

Quindi:

\hat p_{MAP}=\dfrac{10-1}{10+4-2} =\dfrac{9}{12}=0{,}75.

La media a posteriori era $0{,}714$ ; la MAP è più vicina alla zona di massima densità. Media, mediana e moda coincidono solo per distribuzioni simmetriche particolari.

8. Predittiva Beta-Binomiale

Esercizio. Dopo la posteriori $\text{Beta}(10,4)$ , qual è la probabilità predittiva che la prossima prova sia un successo?

La probabilità predittiva di successo è la media a posteriori di $p$ :

P(X_{nuovo}=1\mid x)=E[p\mid x]=\dfrac{10}{14}=0{,}714.

Per una singola prova futura, la predittiva coincide con la media della Beta. Per più prove future, invece, non è una Binomiale con $p$ fisso noto: l’incertezza su $p$ produce una distribuzione Beta-Binomiale, più dispersa.

9. Predittiva Gamma-Poisson

Esercizio. Per la posteriori $\text{Gamma}(15,5)$ del punto 5 (forma, rate), calcolare il numero atteso di eventi nel prossimo periodo di uguale durata.

La media a posteriori del tasso è:

E[\lambda\mid x]=\dfrac{15}{5}=3.

Per un nuovo periodo unitario, il numero atteso predittivo è:

E[X_{nuovo}\mid x]=E[\lambda\mid x]=3.

La distribuzione predittiva completa è negativa binomiale, perché integra l’incertezza su $\lambda$ . La media è semplice, ma la varianza è maggiore di quella di una Poisson con tasso noto.

10. Coniugata Normale-Normale

Esercizio. Una media $\mu$ ha priori $\mu\sim N(10,\,4)$ , cioè varianza prior $4$ . Si osserva un dato $x=14$ con varianza nota $\sigma^2=1$ . Calcolare la media a posteriori.

Nel caso normale con varianza nota, la media a posteriori è una media pesata dalle precisioni:

\tau_0=\dfrac{1}{4}=0{,}25,\qquad \tau=\dfrac{1}{1}=1.

La media a posteriori:

m_1=\dfrac{\tau_0 m_0+\tau x}{\tau_0+\tau} =\dfrac{0{,}25\times10+1\times14}{0{,}25+1} =\dfrac{2{,}5+14}{1{,}25} =13{,}2.

Il dato è più preciso della priori, quindi la posteriori si sposta molto verso $14$ , ma non coincide con il dato: resta l’influenza della conoscenza precedente.

Errori comuni

Dimenticare la priori. La posteriori è proporzionale a verosimiglianza × priori: trascurare la priori riduce al solo metodo di massima verosimiglianza.
Non usare la coniugazione. Con priori coniugata la posteriori è nota in forma chiusa: sommare i parametri evita integrali complicati.
Confondere credibilità e confidenza. L’intervallo di credibilità dà $P(\theta\in[a,b]\mid\text{dati})$ ; quello di confidenza riguarda la frequenza su campioni ripetuti.
Ignorare il peso della priori. Una priori molto informativa equivale a molti dati virtuali e può dominare campioni piccoli.
Confondere media posteriori e MAP. Sono entrambe stime bayesiane, ma ottimizzano criteri diversi e possono dare valori differenti.
Usare la predittiva come se il parametro fosse noto. La predittiva integra l’incertezza sul parametro e spesso ha varianza maggiore del modello con parametro fissato.