Un albero di decisione è un modello di apprendimento supervisionato che suddivide ricorsivamente lo spazio delle feature in regioni rettangolari, associando a ciascuna una previsione (etichetta di classe o valore numerico). La struttura gerarchica rende il modello interpretabile: la traiettoria dalla radice a una foglia costituisce una regola di decisione leggibile.
Struttura dell’Albero
- Nodo Radice: Il punto di partenza, contenente l’intera popolazione o campione.
- Nodi Interni (Split): Rappresentano un test su una specifica caratteristica (es. “La temperatura è > 100^\circ\text{C}?”).
- Rami: Rappresentano l’esito del test (Vero/Falso).
- Foglie: I nodi terminali che contengono la decisione finale o il valore previsto.
Come vengono costruiti?
L’algoritmo (come CART o ID3) cerca di suddividere i dati in modo che i gruppi risultanti siano il più “puri” possibile. Per misurare questa purezza si utilizzano criteri come:
- Impurezza di Gini (per la classificazione).
- Entropia/Information Gain (per la classificazione).
- Varianza (per la regressione).
Criteri di split
L’algoritmo CART (Classification and Regression Trees) seleziona a ogni nodo la feature j e la soglia t che minimizzano l’impurezza dei figli. Per la classificazione:
Indice di Gini: G(D) = 1 - \sum_{k=1}^{K} p_k^2
dove p_k è la proporzione di campioni di classe k nel nodo D.
Entropia (Information Gain): H(D) = -\sum_{k=1}^{K} p_k \log_2 p_k \qquad \Rightarrow \quad IG = H(D) - \frac{|D_L|}{|D|}H(D_L) - \frac{|D_R|}{|D|}H(D_R)
Per la regressione si minimizza la varianza residua nei figli.
Complessità computazionale: il training di CART richiede O(n \cdot d \cdot \log n) per ordinare le feature, dove n è il numero di campioni e d il numero di feature.
Pregi e Difetti
- Pro: Estrema facilità di interpretazione (possono essere visualizzati come un diagramma di flusso). Gestiscono sia dati numerici che categorici.
- Contro: Tendono facilmente all’overfitting (creano alberi troppo complessi che imparano il rumore dei dati). Per risolvere questo problema si usano tecniche di “pruning” (potatura) o modelli di insieme come le Random Forest.
Significato Ingegneristico
- Sistemi di Supporto alle Decisioni (DSS): In ambito medico o industriale, per guidare gli operatori attraverso una serie di controlli diagnostici.
- Ingegneria della Qualità: Per identificare quali variabili di processo (pressione, umidità, velocità) sono le cause principali degli scarti.
- Cybersecurity: Identificazione rapida di traffico malevolo basata su regole semplici e veloci da eseguire (es. origine IP, protocollo, dimensione pacchetto).
Vedi anche: Apprendimento Supervisionato, Analisi dei Cluster, ANOVA.