L’apprendimento non supervisionato è il paradigma del machine learning in cui un algoritmo opera su un insieme di dati privo di etichette, con l’obiettivo di scoprire strutture latenti — cluster, manifold, rappresentazioni compresse o relazioni di associazione — senza supervisione esterna.
Task Principali
- Clustering: Raggruppare i dati in base alla loro somiglianza naturale.
- Riduzione della Dimensionalità: Semplificare i dati riducendo il numero di variabili senza perdere l’informazione essenziale.
- Associazione: Scoprire regole che descrivono i dati (es. “se un utente compra A, spesso compra anche B”).
Algoritmi Comuni
- K-Means e Clustering Gerarchico
- PCA (Analisi delle Componenti Principali)
- t-SNE e UMAP
- Autoencoder (Reti Neurali)
Vantaggi e Sfide
- Vantaggio: Non richiede il costoso e lento processo di etichettatura umana dei dati (Data Labeling).
- Sfida: È più difficile valutare oggettivamente se il risultato ottenuto sia “corretto”, poiché non esiste una verità assoluta (ground truth) di confronto.
La qualità dei risultati si valuta con metriche interne (silhouette score per il clustering, varianza ricostruita per la riduzione di dimensionalità) o tramite valutazione esterna downstream se il task non supervisionato precede uno supervisionato.
Significato Ingegneristico
- Esplorazione di Grandi Dataset: Prima di costruire un modello di previsione, l’ingegnere usa tecniche non supervisionate per capire se i dati hanno una struttura coerente o se contengono troppo rumore.
- Rilevamento di Anomalie: In un sistema di monitoraggio di un ponte, un algoritmo non supervisionato impara qual è il comportamento “normale” delle vibrazioni. Qualsiasi dato che si discosta drasticamente da questa struttura viene segnalato come potenziale danno strutturale.
- Bioinformatica: Raggruppamento di sequenze genetiche con funzioni simili senza conoscerne a priori il ruolo biologico.
Vedi anche: Apprendimento Supervisionato, Analisi dei Cluster, Analisi delle Componenti Principali, Algoritmo EM.