Alberi di Decisione — ingegnerismo.it

Un albero di decisione è un modello di apprendimento supervisionato che suddivide ricorsivamente lo spazio delle feature in regioni rettangolari, associando a ciascuna una previsione (etichetta di classe o valore numerico). La struttura gerarchica rende il modello interpretabile: la traiettoria dalla radice a una foglia costituisce una regola di decisione leggibile.

Struttura dell’Albero

Nodo Radice: Il punto di partenza, contenente l’intera popolazione o campione.
Nodi Interni (Split): Rappresentano un test su una specifica caratteristica (es. “La temperatura è $> 100^\circ\text{C}$ ?”).
Rami: Rappresentano l’esito del test (Vero/Falso).
Foglie: I nodi terminali che contengono la decisione finale o il valore previsto.

Come vengono costruiti?

L’algoritmo (come CART o ID3) cerca di suddividere i dati in modo che i gruppi risultanti siano il più “puri” possibile. Per misurare questa purezza si utilizzano criteri come:

Impurezza di Gini (per la classificazione).
Entropia/Information Gain (per la classificazione).
Varianza (per la regressione).

Criteri di split

L’algoritmo CART (Classification and Regression Trees) seleziona a ogni nodo la feature $j$ e la soglia $t$ che minimizzano l’impurezza dei figli. Per la classificazione:

Indice di Gini: $G(D) = 1 - \sum_{k=1}^{K} p_k^2$

dove $p_k$ è la proporzione di campioni di classe $k$ nel nodo $D$ .

Entropia (Information Gain): $H(D) = -\sum_{k=1}^{K} p_k \log_2 p_k \qquad \Rightarrow \quad IG = H(D) - \frac{|D_L|}{|D|}H(D_L) - \frac{|D_R|}{|D|}H(D_R)$

Per la regressione si minimizza la varianza residua nei figli.

Complessità computazionale: il training di CART richiede $O(n \cdot d \cdot \log n)$ per ordinare le feature, dove $n$ è il numero di campioni e $d$ il numero di feature.

Pregi e Difetti

Pro: Estrema facilità di interpretazione (possono essere visualizzati come un diagramma di flusso). Gestiscono sia dati numerici che categorici.
Contro: Tendono facilmente all’overfitting (creano alberi troppo complessi che imparano il rumore dei dati). Per risolvere questo problema si usano tecniche di “pruning” (potatura) o modelli di insieme come le Random Forest.

Significato Ingegneristico

Sistemi di Supporto alle Decisioni (DSS): In ambito medico o industriale, per guidare gli operatori attraverso una serie di controlli diagnostici.
Ingegneria della Qualità: Per identificare quali variabili di processo (pressione, umidità, velocità) sono le cause principali degli scarti.
Cybersecurity: Identificazione rapida di traffico malevolo basata su regole semplici e veloci da eseguire (es. origine IP, protocollo, dimensione pacchetto).

Vedi anche: Apprendimento Supervisionato, Analisi dei Cluster, ANOVA.