Distribuzione predittiva

Indice dei contenuti

    La distribuzione predittiva descrive l’incertezza su nuove osservazioni. In ambito bayesiano, non si prevede usando un solo valore stimato del parametro: si integra la distribuzione dei futuri dati rispetto all’incertezza residua sul parametro.

    Se x sono i dati osservati e \tilde x indica una nuova osservazione, la predittiva a posteriori è

    p(\tilde x\mid x)=\int p(\tilde x\mid\theta)\pi(\theta\mid x)\,d\theta.

    Questa formula è una delle più importanti dell’inferenza bayesiana: combina il modello dei dati futuri con la distribuzione a posteriori del parametro.

    Due fonti di incertezza

    La distribuzione predittiva contiene due componenti:

    • la variabilità intrinseca del fenomeno, descritta da p(\tilde x\mid\theta);
    • l’incertezza sui parametri, descritta da \pi(\theta\mid x).

    Se si sostituisse \theta con una stima puntuale \hat\theta, si otterrebbe

    p(\tilde x\mid \hat\theta),

    che ignora l’incertezza parametrica. La predittiva completa è più prudente, specialmente con pochi dati.

    Predittiva a priori e a posteriori

    Prima di osservare dati, la predittiva a priori è

    p(\tilde x) = \int p(\tilde x\mid\theta)\pi(\theta)\,d\theta.

    Dopo aver osservato x, la prior viene aggiornata in posterior e si ottiene la predittiva a posteriori:

    p(\tilde x\mid x) = \int p(\tilde x\mid\theta)\pi(\theta\mid x)\,d\theta.

    La differenza è sostanziale: la predittiva a posteriori usa l’informazione dei dati osservati.

    Esempio Beta-Bernoulli

    Supponiamo che

    Y\mid\theta\sim \operatorname{Bernoulli}(\theta),

    e che la prior sia

    \theta\sim \operatorname{Beta}(a,b).

    Dopo aver osservato s successi e f fallimenti, per coniugazione bayesiana la posteriore è

    \theta\mid y \sim \operatorname{Beta}(a+s,b+f).

    La probabilità predittiva che la prossima osservazione sia un successo è

    P(\tilde Y=1\mid y) = \mathbb{E}[\theta\mid y] = \dfrac{a+s}{a+b+s+f}.

    La predizione non usa solo la frequenza osservata: incorpora anche la prior e l’incertezza residua.

    Collegamento con intervalli di predizione

    Un intervallo di predizione riguarda una futura osservazione, non soltanto un parametro. Per questo è in genere più largo di un intervallo di credibilità sul parametro: deve includere sia l’incertezza sul parametro sia la variabilità della futura osservazione.

    Per esempio, prevedere la media di un processo è diverso dal prevedere il prossimo valore prodotto dal processo. La distribuzione predittiva risponde alla seconda domanda.

    Posterior predictive checks

    I posterior predictive checks usano la distribuzione predittiva per verificare se il modello genera dati simili a quelli osservati. Si simulano repliche

    \tilde x^{(1)},\dots,\tilde x^{(M)}

    dalla predittiva e si confrontano statistiche o pattern con i dati reali. Se i dati osservati risultano estremi rispetto alle simulazioni, il modello può essere mal specificato.

    Questa procedura non dimostra che il modello sia vero, ma aiuta a individuare discrepanze pratiche.

    Relazione con verosimiglianza marginale

    La predittiva è collegata alla verosimiglianza marginale e alla probabilità condizionata. In modelli sequenziali, la probabilità dei dati può essere fattorizzata come prodotto di predittive successive:

    p(x_1,\dots,x_n) = \prod_{i=1}^{n} p(x_i\mid x_1,\dots,x_{i-1}).

    Questo rende la predittiva importante anche nel confronto tra modelli e nell’aggiornamento online.

    Errori comuni

    Il primo errore è confondere distribuzione predittiva e distribuzione posteriore del parametro. La posteriore parla di \theta; la predittiva parla di nuove osservazioni. Il secondo è prevedere usando solo una stima puntuale, sottostimando l’incertezza. Il terzo è interpretare una predittiva come garanzia frequentista senza considerare prior, likelihood e adeguatezza del modello.

    Per esercizi collegati si vedano probabilità condizionata e Bayes e inferenza bayesiana e priori coniugate.

    Ultimo aggiornamento: