Distribuzione Dirichlet — ingegnerismo.it

La distribuzione Dirichlet è una distribuzione continua definita sul simplesso delle probabilità. Descrive vettori

p=(p_1,\ldots,p_K)

tali che

p_i\ge 0, \qquad \sum_{i=1}^{K}p_i=1.

È quindi il modello naturale per rappresentare incertezza su probabilità categoriche: quote di mercato, frequenze di classi, proporzioni di guasti, probabilità di transizione o composizioni percentuali.

Densità

Con parametri $\alpha_1,\ldots,\alpha_K>0$ , la densità della Dirichlet è

f(p_1,\ldots,p_K) = \dfrac{1}{B(\alpha)} \prod_{i=1}^{K}p_i^{\alpha_i-1},

dove

B(\alpha) = \dfrac{\prod_{i=1}^{K}\Gamma(\alpha_i)} {\Gamma\!\left(\sum_{i=1}^{K}\alpha_i\right)}

è la costante di normalizzazione multivariata. Si scrive

p\sim\operatorname{Dirichlet}(\alpha_1,\ldots,\alpha_K).

Il caso $K=2$ coincide con una distribuzione beta sul valore $p_1$ , perché $p_2=1-p_1$ .

Interpretazione dei parametri

La somma

\alpha_0=\sum_{i=1}^{K}\alpha_i

controlla la concentrazione della distribuzione. Valori grandi di $\alpha_0$ producono vettori più vicini alla media; valori piccoli producono vettori più dispersi e spesso vicini ai vertici del simplesso.

La media della componente $i$ è

E[p_i]=\dfrac{\alpha_i}{\alpha_0}.

Per questo motivo i parametri $\alpha_i$ sono spesso interpretati come conteggi virtuali o pseudoconteggi: non sono osservazioni reali, ma pesano l’informazione iniziale in un modello bayesiano.

Coniugazione con multinomiale

La Dirichlet è prior coniugata della multinomiale. Se si osservano conteggi

n=(n_1,\ldots,n_K)

da un modello categorico o multinomiale, e la prior è

p\sim\operatorname{Dirichlet}(\alpha_1,\ldots,\alpha_K),

allora la posteriore è

p\mid n \sim \operatorname{Dirichlet}(\alpha_1+n_1,\ldots,\alpha_K+n_K).

Questa forma chiusa è il motivo per cui la Dirichlet è molto usata in inferenza bayesiana e nella coniugazione bayesiana: l’aggiornamento consiste nell’aggiungere conteggi osservati a parametri precedenti.

Applicazioni

La distribuzione Dirichlet compare nello smoothing di probabilità discrete, nei modelli di classificazione, nei modelli di mixture, nei modelli di topic e nella stima di distribuzioni categoriche con pochi dati. In una tabella di frequenze, evita che categorie non osservate ricevano probabilità esattamente nulla, purché il parametro corrispondente sia positivo.

In statistica multivariata è anche un modello per dati composizionali, cioè dati in cui conta la quota relativa delle componenti e la somma totale è vincolata.

Errori comuni

Il primo errore è trattare le componenti $p_i$ come indipendenti. Non lo sono: il vincolo $\sum_i p_i=1$ introduce dipendenza negativa tra le componenti.

Un secondo errore è interpretare $\alpha_i$ sempre come conteggi fisici. L’analogia con i conteggi è utile, ma in un modello bayesiano i parametri riflettono il peso informativo della prior, che va scelto coerentemente con il problema.

Infine, una Dirichlet simmetrica con tutti gli $\alpha_i$ uguali non è automaticamente “non informativa”. Se il valore comune è molto grande, la distribuzione è fortemente concentrata intorno al vettore uniforme; se è minore di $1$ , favorisce vettori sparsi vicini ai vertici.