Un intervallo di credibilità è un intervallo, o più in generale una regione, che contiene un parametro incognito con una probabilità a posteriori assegnata. È un concetto dell’inferenza bayesiana: dopo aver osservato i dati, il parametro viene descritto tramite una distribuzione a posteriori e l’intervallo riassume una parte prefissata di quella distribuzione.
Se \theta è il parametro e x indica i dati osservati, un intervallo di credibilità di livello 1-\alpha è un insieme C tale che
Per esempio, un intervallo di credibilità al 95\% contiene il 95\% della massa posteriore del parametro.
Differenza rispetto all’intervallo di confidenza
L’interpretazione è diversa da quella di un intervallo di confidenza frequentista. Nel quadro frequentista il parametro è fisso e l’intervallo è casuale perché dipende dal campione; dire “confidenza al 95\%” riguarda il comportamento della procedura su ripetizioni ideali dell’esperimento.
Nel quadro bayesiano, dopo aver osservato i dati, si assegna una distribuzione al parametro:
L’intervallo di credibilità è quindi leggibile direttamente come probabilità a posteriori del parametro, condizionatamente ai dati e alla prior scelta. Questa interpretazione è spesso più naturale per chi deve comunicare incertezza decisionale, ma dipende esplicitamente dal modello bayesiano.
Intervallo tramite quantili
Se la distribuzione posteriore è unidimensionale, un intervallo centrale di credibilità al livello 1-\alpha può essere costruito usando i quantili posteriori:
dove
Questo intervallo lascia la stessa probabilità nelle due code. È semplice da calcolare e da comunicare, specialmente quando la distribuzione posteriore è simmetrica o quasi simmetrica.
Regione HPD
Un’altra costruzione è la regione HPD, da highest posterior density. In questo caso si cerca l’insieme dei valori più plausibili secondo la densità posteriore:
dove k è scelto in modo che
Una regione HPD è spesso più corta dell’intervallo centrale, ma può essere più difficile da calcolare e, per distribuzioni multimodali, può non essere un unico intervallo continuo.
Esempio con proporzione binomiale
Se si osservano s successi su n prove e si usa una prior Beta,
la posteriore è ancora una distribuzione beta:
Un intervallo di credibilità si ottiene dai quantili di questa distribuzione posteriore. L’esempio mostra bene il ruolo della prior: con pochi dati, prior diverse possono produrre intervalli sensibilmente diversi; con molti dati, l’effetto della prior tende spesso a ridursi.
Interpretazione operativa
In una relazione tecnica, dire che \theta appartiene a [L,U] con probabilità a posteriori 0{,}95 significa che, dato il modello, i dati e la prior, il 95\% della distribuzione posteriore cade in quell’intervallo. Non significa che l’intervallo sia vero in assoluto: la validità dell’affermazione dipende dalla correttezza del modello statistico e dalla scelta della prior.
L’intervallo di credibilità va distinto anche dall’intervallo di predizione, che riguarda una futura osservazione e include anche la variabilità del dato osservabile, non solo l’incertezza sul parametro.
Errori comuni
Il primo errore è trattare intervalli di credibilità e intervalli di confidenza come sinonimi. Possono essere numericamente simili in modelli regolari con prior deboli e molti dati, ma la loro interpretazione resta diversa. Il secondo è nascondere la prior: un intervallo bayesiano è sempre condizionato anche alla prior. Il terzo è usare solo l’intervallo senza ispezionare la forma della posteriore; in presenza di asimmetria o multimodalità, due estremi possono riassumere male l’incertezza.
Per esempi di aggiornamento bayesiano e uso della probabilità condizionata, si vedano gli esercizi su probabilità condizionata e Bayes e quelli su inferenza bayesiana e priori coniugate.