Gaussian Mixture Model — ingegnerismo.it

Un Gaussian Mixture Model (GMM), o modello a miscela gaussiana, rappresenta una distribuzione come combinazione pesata di più densità normali multivariate. È uno dei modelli fondamentali della statistica multivariata e dell’apprendimento non supervisionato, perché permette di descrivere popolazioni eterogenee come sovrapposizione di sottopopolazioni latenti.

L’idea è semplice: i dati osservati non provengono da una sola distribuzione normale, ma da una miscela di gaussiane, ciascuna con media, forma e peso propri. L’appartenenza di ogni osservazione a una componente non è osservata direttamente e viene stimata in termini probabilistici.

1. Definizione

f(x)= \sum_{k=1}^{K} \pi_k\,\phi(x;\mu_k,\Sigma_k),

dove:

$K$ è il numero di componenti;
$\pi_k$ è il peso della componente $k$ ;
$\phi(x;\mu_k,\Sigma_k)$ è la densità normale multivariata con media $\mu_k$ e matrice di covarianza $\Sigma_k$ ;
i pesi soddisfano $\pi_k\ge 0$ e $\sum_{k=1}^{K}\pi_k=1$ .

In forma esplicita, la densità gaussiana multivariata è:

\phi(x;\mu_k,\Sigma_k)= \dfrac{1}{(2\pi)^{p/2}|\Sigma_k|^{1/2}} \exp\left[ -\dfrac{1}{2} (x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k) \right].

La miscela non è una gaussiana unica, anche se tutte le componenti sono gaussiane. Può essere multimodale, asimmetrica e capace di descrivere cluster ellissoidali con orientamenti diversi.

2. Variabile latente di appartenenza

Un GMM introduce una variabile latente $Z_i$ che indica da quale componente è stata generata l’osservazione $x_i$ . Se $Z_i=k$ , allora:

x_i\mid Z_i=k \sim \mathcal{N}(\mu_k,\Sigma_k).

Le probabilità posteriori:

\gamma_{ik} = P(Z_i=k\mid x_i)

sono dette responsabilità. Indicano quanto la componente $k$ spiega l’osservazione $i$ . A differenza del k-means, che assegna ogni punto a un solo cluster, il GMM produce un clustering soft: un punto può appartenere al 70% a una componente e al 30% a un’altra.

3. Stima con algoritmo EM

La stima dei parametri avviene spesso con l’algoritmo EM, perché le appartenenze alle componenti sono non osservate. EM alterna due passaggi.

Nel passo E si calcolano le responsabilità usando i parametri correnti:

\gamma_{ik} = \dfrac{\pi_k\phi(x_i;\mu_k,\Sigma_k)} {\sum_{\ell=1}^{K}\pi_\ell\phi(x_i;\mu_\ell,\Sigma_\ell)}.

Nel passo M si aggiornano pesi, medie e covarianze:

N_k=\sum_{i=1}^{n}\gamma_{ik},

\pi_k=\dfrac{N_k}{n}, \qquad \mu_k=\dfrac{1}{N_k}\sum_{i=1}^{n}\gamma_{ik}x_i,

\Sigma_k= \dfrac{1}{N_k} \sum_{i=1}^{n} \gamma_{ik}(x_i-\mu_k)(x_i-\mu_k)^T.

Ogni iterazione aumenta, o almeno non diminuisce, la log-verosimiglianza:

\ell(\theta) = \sum_{i=1}^{n} \log \left[ \sum_{k=1}^{K} \pi_k\phi(x_i;\mu_k,\Sigma_k) \right].

EM converge a un massimo locale, non necessariamente al massimo globale. Per questo si usano inizializzazioni multiple, spesso basate su k-means o su campioni casuali.

4. Forma delle covarianze

La scelta della struttura di $\Sigma_k$ controlla la flessibilità del modello:

covarianza completa: ogni cluster può avere forma ellissoidale e orientamento proprio;
covarianza diagonale: le variabili sono non correlate dentro ogni componente;
covarianza sferica: ogni componente ha dispersione uguale in tutte le direzioni;
covarianza condivisa: tutte le componenti hanno la stessa matrice di covarianza.

Più la struttura è flessibile, più il modello può adattarsi ai dati, ma cresce il rischio di sovradattamento e instabilità. In dimensione alta, una covarianza completa per ogni componente può richiedere troppi parametri rispetto al numero di osservazioni.

5. Scelta del numero di componenti

Il numero $K$ non è determinato automaticamente dal modello. Si può scegliere usando criteri informativi come AIC o BIC:

\operatorname{BIC} = -2\ell(\widehat{\theta})+\nu\log n,

dove $\nu$ è il numero di parametri stimati. Il BIC tende a preferire modelli più parsimoniosi rispetto all’AIC quando $n$ cresce.

La scelta di $K$ non coincide sempre con il numero di cluster interpretativi. Una popolazione reale può richiedere più gaussiane per descrivere un cluster non ellissoidale, oppure componenti distinte possono sovrapporsi senza rappresentare gruppi tecnicamente separabili.

6. Relazione con k-means

Il GMM può essere visto come una generalizzazione probabilistica del k-means. Se le componenti hanno covarianze sferiche uguali, pesi simili e varianza che tende a zero, l’assegnazione più probabile si avvicina all’assegnazione al centroide più vicino.

La differenza pratica è rilevante:

k-means produce cluster duri e tende a forme sferiche;
GMM produce probabilità di appartenenza;
GMM modella anche la dispersione e l’orientamento dei gruppi;
GMM permette di quantificare incertezza e sovrapposizione tra componenti.

Per una panoramica più ampia dei metodi di raggruppamento, il riferimento naturale è l’analisi dei cluster.

7. Degenerazioni e regolarizzazione

La verosimiglianza di un GMM può diventare problematica se una componente collassa su pochi punti con covarianza quasi nulla. In quel caso il determinante $|\Sigma_k|$ tende a zero e la densità può crescere in modo artificiale.

Per evitare degenerazioni si usano:

soglie minime sugli autovalori delle covarianze;
aggiunta di un termine diagonale $\lambda I$ ;
vincoli sulla dimensione minima delle componenti;
inizializzazioni robuste;
eliminazione o fusione di componenti instabili.

La regolarizzazione non è un dettaglio tecnico secondario: spesso determina se il modello è utilizzabile o produce cluster numericamente fragili.

8. Interpretazione e applicazioni

Un GMM è adatto quando i dati presentano sottopopolazioni latenti con dispersioni diverse. È usato in segmentazione, diagnostica, riconoscimento di pattern, modellazione di segnali, anomaly detection, compressione statistica e analisi di dati sperimentali multivariati.

Le responsabilità possono essere usate come nuove feature, come pesi in modelli successivi o come misura di incertezza. Un punto con responsabilità distribuite su più componenti è vicino a una regione di sovrapposizione e dovrebbe essere interpretato con cautela.

9. Errori comuni

Il primo errore è interpretare ogni componente come un gruppo reale. Le componenti sono elementi di un modello di densità; la loro esistenza statistica non implica automaticamente una categoria fisica, sociale o tecnica.

Il secondo errore è scegliere $K$ solo in base alla massima verosimiglianza: aumentando le componenti, la verosimiglianza tende a migliorare, ma non necessariamente migliora la generalizzazione.

Il terzo errore è applicare il GMM a dati con scale non comparabili senza standardizzazione. Variabili con unità di misura grandi possono dominare le covarianze e spostare artificialmente la struttura dei cluster.

10. Uso operativo

In un flusso ingegneristico, un GMM va trattato come modello probabilistico, non solo come algoritmo di clustering. Occorre scegliere le variabili, controllare le scale, provare più inizializzazioni, valutare la stabilità di $K$ , ispezionare le covarianze e confrontare il risultato con metodi alternativi come k-means o DBSCAN.

Quando la sovrapposizione tra gruppi è importante quanto l’assegnazione finale, il GMM offre un vantaggio sostanziale: non forza una classificazione netta dove i dati suggeriscono incertezza.