La distribuzione Dirichlet è una distribuzione continua definita sul simplesso delle probabilità. Descrive vettori
tali che
È quindi il modello naturale per rappresentare incertezza su probabilità categoriche: quote di mercato, frequenze di classi, proporzioni di guasti, probabilità di transizione o composizioni percentuali.
Densità
Con parametri \alpha_1,\ldots,\alpha_K>0, la densità della Dirichlet è
dove
è la costante di normalizzazione multivariata. Si scrive
Il caso K=2 coincide con una distribuzione beta sul valore p_1, perché p_2=1-p_1.
Interpretazione dei parametri
La somma
controlla la concentrazione della distribuzione. Valori grandi di \alpha_0 producono vettori più vicini alla media; valori piccoli producono vettori più dispersi e spesso vicini ai vertici del simplesso.
La media della componente i è
Per questo motivo i parametri \alpha_i sono spesso interpretati come conteggi virtuali o pseudoconteggi: non sono osservazioni reali, ma pesano l’informazione iniziale in un modello bayesiano.
Coniugazione con multinomiale
La Dirichlet è prior coniugata della multinomiale. Se si osservano conteggi
da un modello categorico o multinomiale, e la prior è
allora la posteriore è
Questa forma chiusa è il motivo per cui la Dirichlet è molto usata in inferenza bayesiana e nella coniugazione bayesiana: l’aggiornamento consiste nell’aggiungere conteggi osservati a parametri precedenti.
Applicazioni
La distribuzione Dirichlet compare nello smoothing di probabilità discrete, nei modelli di classificazione, nei modelli di mixture, nei modelli di topic e nella stima di distribuzioni categoriche con pochi dati. In una tabella di frequenze, evita che categorie non osservate ricevano probabilità esattamente nulla, purché il parametro corrispondente sia positivo.
In statistica multivariata è anche un modello per dati composizionali, cioè dati in cui conta la quota relativa delle componenti e la somma totale è vincolata.
Errori comuni
Il primo errore è trattare le componenti p_i come indipendenti. Non lo sono: il vincolo \sum_i p_i=1 introduce dipendenza negativa tra le componenti.
Un secondo errore è interpretare \alpha_i sempre come conteggi fisici. L’analogia con i conteggi è utile, ma in un modello bayesiano i parametri riflettono il peso informativo della prior, che va scelto coerentemente con il problema.
Infine, una Dirichlet simmetrica con tutti gli \alpha_i uguali non è automaticamente “non informativa”. Se il valore comune è molto grande, la distribuzione è fortemente concentrata intorno al vettore uniforme; se è minore di 1, favorisce vettori sparsi vicini ai vertici.