Un albero di decisione è un modello di apprendimento supervisionato che suddivide ricorsivamente lo spazio delle feature in regioni rettangolari, associando a ciascuna una previsione (etichetta di classe o valore numerico). La struttura gerarchica rende il modello interpretabile: la traiettoria dalla radice a una foglia costituisce una regola di decisione leggibile.
Struttura dell’Albero
- Nodo Radice: Il punto di partenza, contenente l’intera popolazione o campione.
- Nodi Interni (Split): Rappresentano un test su una specifica caratteristica (es. “La temperatura è ?”).
- Rami: Rappresentano l’esito del test (Vero/Falso).
- Foglie: I nodi terminali che contengono la decisione finale o il valore previsto.
Come vengono costruiti?
L’algoritmo (come CART o ID3) cerca di suddividere i dati in modo che i gruppi risultanti siano il più “puri” possibile. Per misurare questa purezza si utilizzano criteri come:
- Impurezza di Gini (per la classificazione).
- Entropia/Information Gain (per la classificazione).
- Varianza (per la regressione).
Criteri di split
L’algoritmo CART (Classification and Regression Trees) seleziona a ogni nodo la feature e la soglia che minimizzano l’impurezza dei figli. Per la classificazione:
Indice di Gini:
dove è la proporzione di campioni di classe nel nodo .
Entropia (Information Gain):
Per la regressione si minimizza la varianza residua nei figli.
Complessità computazionale: il training di CART richiede per ordinare le feature, dove è il numero di campioni e il numero di feature.
Pregi e Difetti
- Pro: Estrema facilità di interpretazione (possono essere visualizzati come un diagramma di flusso). Gestiscono sia dati numerici che categorici.
- Contro: Tendono facilmente all’overfitting (creano alberi troppo complessi che imparano il rumore dei dati). Per risolvere questo problema si usano tecniche di “pruning” (potatura) o modelli di insieme come le Random Forest.
Significato Ingegneristico
- Sistemi di Supporto alle Decisioni (DSS): In ambito medico o industriale, per guidare gli operatori attraverso una serie di controlli diagnostici.
- Ingegneria della Qualità: Per identificare quali variabili di processo (pressione, umidità, velocità) sono le cause principali degli scarti.
- Cybersecurity: Identificazione rapida di traffico malevolo basata su regole semplici e veloci da eseguire (es. origine IP, protocollo, dimensione pacchetto).
Vedi anche: Apprendimento Supervisionato, Analisi dei Cluster, ANOVA.