Criterio di informazione bayesiano

Il criterio di informazione bayesiano, indicato con BIC da Bayesian Information Criterion, è un criterio per confrontare modelli statistici stimati sugli stessi dati. Combina bontà di adattamento e complessità: premia modelli con alta verosimiglianza, ma penalizza quelli con molti parametri.

La forma più comune è

BIC=-2\ell(\hat\theta)+p\log n,

dove $\ell(\hat\theta)$ è la log-verosimiglianza massimizzata, $p$ è il numero di parametri liberi e $n$ è la dimensione campionaria. A parità di dati e convenzioni di calcolo, si preferisce il modello con BIC più basso.

Perché compare la penalizzazione

Il termine

-2\ell(\hat\theta)

misura l’adattamento del modello: se la log-verosimiglianza è alta, questo contributo diminuisce. Il termine

p\log n

penalizza la complessità. Aumentando il numero di parametri, un modello tende quasi sempre ad adattarsi meglio ai dati osservati, ma può farlo catturando rumore e non struttura stabile. Il BIC cerca di correggere questo effetto.

Rispetto al criterio di Akaike, il BIC penalizza più severamente la complessità quando $n$ cresce, perché $\log n$ diventa maggiore di $2$ per campioni sufficientemente grandi. Di conseguenza, tra due modelli con adattamento simile, il BIC tende a preferire il modello più parsimonioso.

Motivazione bayesiana

Il nome “bayesiano” deriva dal fatto che il BIC può essere interpretato come un’approssimazione asintotica dell’evidenza del modello, cioè della verosimiglianza marginale:

p(x\mid M)=\int p(x\mid\theta,M)\,p(\theta\mid M)\,d\theta.

In condizioni regolari e per grandi campioni, confrontare i BIC di due modelli approssima il confronto tra le loro evidenze bayesiane. Questa connessione lo rende naturale nell’inferenza bayesiana, anche se nella pratica viene usato spesso anche in contesti frequentisti.

Confronto tra modelli

Se due modelli $M_1$ e $M_2$ sono stimati sugli stessi dati, la differenza

\Delta BIC = BIC_2-BIC_1

misura quanto il secondo sia sfavorito rispetto al primo. Se $\Delta BIC>0$ , il modello $M_1$ ha BIC minore ed è preferito dal criterio. Differenze piccole non vanno sovrainterpretate; differenze grandi indicano una preferenza più netta.

Il confronto è sensato solo se i modelli sono stimati sulla stessa risposta, sullo stesso campione e con la stessa definizione di log-verosimiglianza. Non ha significato confrontare BIC calcolati su dataset diversi o su likelihood non comparabili.

Esempi d’uso

Il BIC è usato nella selezione del numero di regressori in una regressione, nella scelta dell’ordine di modelli per serie storiche, nella selezione del numero di componenti di un Gaussian mixture model e nel confronto tra modelli probabilistici annidati o non annidati.

In una regressione lineare con errori gaussiani, aggiungere variabili può ridurre la somma dei residui e aumentare la log-verosimiglianza. Il BIC accetta l’aggiunta solo se il miglioramento giustifica la crescita del numero di parametri.

Ipotesi e limiti

Il BIC è un criterio asintotico: la sua giustificazione teorica migliora per campioni grandi e modelli regolari. Può essere meno affidabile con campioni piccoli, parametri al bordo dello spazio parametrico, modelli singolari, forti dipendenze non modellate o likelihood approssimate in modo incoerente.

Non misura la qualità assoluta del modello. Un BIC minimo seleziona il migliore tra i modelli candidati, ma non garantisce che uno di essi descriva bene il fenomeno. Per questo va affiancato a diagnostica dei residui, validazione predittiva e controllo della plausibilità fisica o statistica.

Errori comuni

Il primo errore è scegliere automaticamente il modello con più variabili perché “spiega di più”: il BIC nasce proprio per contrastare questa tendenza. Il secondo è confrontare BIC calcolati su campioni diversi. Il terzo è interpretarlo come probabilità del modello: il valore del BIC non è una probabilità, ma un punteggio comparativo.

Per un contesto bayesiano applicato si vedano anche gli esercizi su inferenza bayesiana e priori coniugate.