L’Algoritmo EM è una tecnica iterativa utilizzata per trovare la Stima di Massima Verosimiglianza dei parametri di un modello quando i dati sono incompleti o quando il modello dipende da variabili nascoste (latenti).
Funzionamento in due passi
L’algoritmo alterna ciclicamente due fasi fino a convergenza:
- Passo E (Expectation): Si calcola il valore atteso della funzione di verosimiglianza basandosi sui parametri stimati al passo precedente e sui dati osservati. In pratica, si “indovinano” i valori delle variabili mancanti.
- Passo M (Maximization): Si aggiornano i parametri del modello massimizzando la funzione di verosimiglianza calcolata nel passo E.
Proprietà di convergenza
L’algoritmo EM garantisce che la log-verosimiglianza osservata non diminuisca ad ogni iterazione:
Questa proprietà di monotona non-decrescenza è dimostrata tramite la disuguaglianza di Jensen applicata alla funzione concava . La convergenza è quindi garantita, ma solo verso un massimo locale (o un punto di sella): il risultato finale dipende dall’inizializzazione dei parametri. In pratica si eseguono più run con inizializzazioni diverse e si seleziona la soluzione con verosimiglianza maggiore.
Applicazioni Comuni
- Gaussian Mixture Models (GMM): Per raggruppare dati (clustering) assumendo che provengano da diverse distribuzioni normali sovrapposte.
- Hidden Markov Models (HMM): Per stimare le probabilità di transizione tra stati non direttamente osservabili (es. nel riconoscimento vocale).
- Dati Mancanti: Per ricostruire database o serie storiche che presentano lacune nelle registrazioni.
Significato Ingegneristico
- Ricostruzione di Immagini: In ambito medico (TAC, Risonanza Magnetica), l’algoritmo EM è usato per ricostruire immagini nitide a partire da proiezioni rumorose o incomplete.
- Analisi dei Segnali: Identificazione di sorgenti sonore multiple a partire da una registrazione mista (es. isolare la voce di un oratore in una stanza rumorosa).
- Ingegneria delle Reti: Stima dei parametri di traffico di una rete analizzando solo i dati aggregati ai nodi principali.
Vedi anche: Massima Verosimiglianza, Analisi dei Cluster, Catena di Markov.