Distribuzione Dirichlet

Indice dei contenuti

    La distribuzione Dirichlet è una distribuzione continua definita sul simplesso delle probabilità. Descrive vettori

    p=(p_1,\ldots,p_K)

    tali che

    p_i\ge 0, \qquad \sum_{i=1}^{K}p_i=1.

    È quindi il modello naturale per rappresentare incertezza su probabilità categoriche: quote di mercato, frequenze di classi, proporzioni di guasti, probabilità di transizione o composizioni percentuali.

    Densità

    Con parametri \alpha_1,\ldots,\alpha_K>0, la densità della Dirichlet è

    f(p_1,\ldots,p_K) = \dfrac{1}{B(\alpha)} \prod_{i=1}^{K}p_i^{\alpha_i-1},

    dove

    B(\alpha) = \dfrac{\prod_{i=1}^{K}\Gamma(\alpha_i)} {\Gamma\!\left(\sum_{i=1}^{K}\alpha_i\right)}

    è la costante di normalizzazione multivariata. Si scrive

    p\sim\operatorname{Dirichlet}(\alpha_1,\ldots,\alpha_K).

    Il caso K=2 coincide con una distribuzione beta sul valore p_1, perché p_2=1-p_1.

    Interpretazione dei parametri

    La somma

    \alpha_0=\sum_{i=1}^{K}\alpha_i

    controlla la concentrazione della distribuzione. Valori grandi di \alpha_0 producono vettori più vicini alla media; valori piccoli producono vettori più dispersi e spesso vicini ai vertici del simplesso.

    La media della componente i è

    E[p_i]=\dfrac{\alpha_i}{\alpha_0}.

    Per questo motivo i parametri \alpha_i sono spesso interpretati come conteggi virtuali o pseudoconteggi: non sono osservazioni reali, ma pesano l’informazione iniziale in un modello bayesiano.

    Coniugazione con multinomiale

    La Dirichlet è prior coniugata della multinomiale. Se si osservano conteggi

    n=(n_1,\ldots,n_K)

    da un modello categorico o multinomiale, e la prior è

    p\sim\operatorname{Dirichlet}(\alpha_1,\ldots,\alpha_K),

    allora la posteriore è

    p\mid n \sim \operatorname{Dirichlet}(\alpha_1+n_1,\ldots,\alpha_K+n_K).

    Questa forma chiusa è il motivo per cui la Dirichlet è molto usata in inferenza bayesiana e nella coniugazione bayesiana: l’aggiornamento consiste nell’aggiungere conteggi osservati a parametri precedenti.

    Applicazioni

    La distribuzione Dirichlet compare nello smoothing di probabilità discrete, nei modelli di classificazione, nei modelli di mixture, nei modelli di topic e nella stima di distribuzioni categoriche con pochi dati. In una tabella di frequenze, evita che categorie non osservate ricevano probabilità esattamente nulla, purché il parametro corrispondente sia positivo.

    In statistica multivariata è anche un modello per dati composizionali, cioè dati in cui conta la quota relativa delle componenti e la somma totale è vincolata.

    Errori comuni

    Il primo errore è trattare le componenti p_i come indipendenti. Non lo sono: il vincolo \sum_i p_i=1 introduce dipendenza negativa tra le componenti.

    Un secondo errore è interpretare \alpha_i sempre come conteggi fisici. L’analogia con i conteggi è utile, ma in un modello bayesiano i parametri riflettono il peso informativo della prior, che va scelto coerentemente con il problema.

    Infine, una Dirichlet simmetrica con tutti gli \alpha_i uguali non è automaticamente “non informativa”. Se il valore comune è molto grande, la distribuzione è fortemente concentrata intorno al vettore uniforme; se è minore di 1, favorisce vettori sparsi vicini ai vertici.

    Ultimo aggiornamento: