Distribuzione predittiva — ingegnerismo.it

La distribuzione predittiva descrive l’incertezza su nuove osservazioni. In ambito bayesiano, non si prevede usando un solo valore stimato del parametro: si integra la distribuzione dei futuri dati rispetto all’incertezza residua sul parametro.

Se $x$ sono i dati osservati e $\tilde x$ indica una nuova osservazione, la predittiva a posteriori è

p(\tilde x\mid x)=\int p(\tilde x\mid\theta)\pi(\theta\mid x)\,d\theta.

Questa formula è una delle più importanti dell’inferenza bayesiana: combina il modello dei dati futuri con la distribuzione a posteriori del parametro.

Due fonti di incertezza

La distribuzione predittiva contiene due componenti:

la variabilità intrinseca del fenomeno, descritta da $p(\tilde x\mid\theta)$ ;
l’incertezza sui parametri, descritta da $\pi(\theta\mid x)$ .

Se si sostituisse $\theta$ con una stima puntuale $\hat\theta$ , si otterrebbe

p(\tilde x\mid \hat\theta),

che ignora l’incertezza parametrica. La predittiva completa è più prudente, specialmente con pochi dati.

Predittiva a priori e a posteriori

Prima di osservare dati, la predittiva a priori è

p(\tilde x) = \int p(\tilde x\mid\theta)\pi(\theta)\,d\theta.

Dopo aver osservato $x$ , la prior viene aggiornata in posterior e si ottiene la predittiva a posteriori:

p(\tilde x\mid x) = \int p(\tilde x\mid\theta)\pi(\theta\mid x)\,d\theta.

La differenza è sostanziale: la predittiva a posteriori usa l’informazione dei dati osservati.

Esempio Beta-Bernoulli

Supponiamo che

Y\mid\theta\sim \operatorname{Bernoulli}(\theta),

e che la prior sia

\theta\sim \operatorname{Beta}(a,b).

Dopo aver osservato $s$ successi e $f$ fallimenti, per coniugazione bayesiana la posteriore è

\theta\mid y \sim \operatorname{Beta}(a+s,b+f).

La probabilità predittiva che la prossima osservazione sia un successo è

P(\tilde Y=1\mid y) = \mathbb{E}[\theta\mid y] = \dfrac{a+s}{a+b+s+f}.

La predizione non usa solo la frequenza osservata: incorpora anche la prior e l’incertezza residua.

Collegamento con intervalli di predizione

Un intervallo di predizione riguarda una futura osservazione, non soltanto un parametro. Per questo è in genere più largo di un intervallo di credibilità sul parametro: deve includere sia l’incertezza sul parametro sia la variabilità della futura osservazione.

Per esempio, prevedere la media di un processo è diverso dal prevedere il prossimo valore prodotto dal processo. La distribuzione predittiva risponde alla seconda domanda.

Posterior predictive checks

I posterior predictive checks usano la distribuzione predittiva per verificare se il modello genera dati simili a quelli osservati. Si simulano repliche

\tilde x^{(1)},\dots,\tilde x^{(M)}

dalla predittiva e si confrontano statistiche o pattern con i dati reali. Se i dati osservati risultano estremi rispetto alle simulazioni, il modello può essere mal specificato.

Questa procedura non dimostra che il modello sia vero, ma aiuta a individuare discrepanze pratiche.

Relazione con verosimiglianza marginale

La predittiva è collegata alla verosimiglianza marginale e alla probabilità condizionata. In modelli sequenziali, la probabilità dei dati può essere fattorizzata come prodotto di predittive successive:

p(x_1,\dots,x_n) = \prod_{i=1}^{n} p(x_i\mid x_1,\dots,x_{i-1}).

Questo rende la predittiva importante anche nel confronto tra modelli e nell’aggiornamento online.

Errori comuni

Il primo errore è confondere distribuzione predittiva e distribuzione posteriore del parametro. La posteriore parla di $\theta$ ; la predittiva parla di nuove osservazioni. Il secondo è prevedere usando solo una stima puntuale, sottostimando l’incertezza. Il terzo è interpretare una predittiva come garanzia frequentista senza considerare prior, likelihood e adeguatezza del modello.

Per esercizi collegati si vedano probabilità condizionata e Bayes e inferenza bayesiana e priori coniugate.