Alberi di Decisione

Indice dei contenuti

    Un albero di decisione è un modello di apprendimento supervisionato che suddivide ricorsivamente lo spazio delle feature in regioni rettangolari, associando a ciascuna una previsione (etichetta di classe o valore numerico). La struttura gerarchica rende il modello interpretabile: la traiettoria dalla radice a una foglia costituisce una regola di decisione leggibile.

    Struttura dell’Albero

    1. Nodo Radice: Il punto di partenza, contenente l’intera popolazione o campione.
    2. Nodi Interni (Split): Rappresentano un test su una specifica caratteristica (es. “La temperatura è >100C> 100^\circ\text{C}?”).
    3. Rami: Rappresentano l’esito del test (Vero/Falso).
    4. Foglie: I nodi terminali che contengono la decisione finale o il valore previsto.

    Come vengono costruiti?

    L’algoritmo (come CART o ID3) cerca di suddividere i dati in modo che i gruppi risultanti siano il più “puri” possibile. Per misurare questa purezza si utilizzano criteri come:

    • Impurezza di Gini (per la classificazione).
    • Entropia/Information Gain (per la classificazione).
    • Varianza (per la regressione).

    Criteri di split

    L’algoritmo CART (Classification and Regression Trees) seleziona a ogni nodo la feature jj e la soglia tt che minimizzano l’impurezza dei figli. Per la classificazione:

    Indice di Gini: G(D)=1k=1Kpk2G(D) = 1 - \sum_{k=1}^{K} p_k^2

    dove pkp_k è la proporzione di campioni di classe kk nel nodo DD.

    Entropia (Information Gain): H(D)=k=1Kpklog2pkIG=H(D)DLDH(DL)DRDH(DR)H(D) = -\sum_{k=1}^{K} p_k \log_2 p_k \qquad \Rightarrow \quad IG = H(D) - \frac{|D_L|}{|D|}H(D_L) - \frac{|D_R|}{|D|}H(D_R)

    Per la regressione si minimizza la varianza residua nei figli.

    Complessità computazionale: il training di CART richiede O(ndlogn)O(n \cdot d \cdot \log n) per ordinare le feature, dove nn è il numero di campioni e dd il numero di feature.

    Pregi e Difetti

    • Pro: Estrema facilità di interpretazione (possono essere visualizzati come un diagramma di flusso). Gestiscono sia dati numerici che categorici.
    • Contro: Tendono facilmente all’overfitting (creano alberi troppo complessi che imparano il rumore dei dati). Per risolvere questo problema si usano tecniche di “pruning” (potatura) o modelli di insieme come le Random Forest.

    Significato Ingegneristico

    • Sistemi di Supporto alle Decisioni (DSS): In ambito medico o industriale, per guidare gli operatori attraverso una serie di controlli diagnostici.
    • Ingegneria della Qualità: Per identificare quali variabili di processo (pressione, umidità, velocità) sono le cause principali degli scarti.
    • Cybersecurity: Identificazione rapida di traffico malevolo basata su regole semplici e veloci da eseguire (es. origine IP, protocollo, dimensione pacchetto).

    Vedi anche: Apprendimento Supervisionato, Analisi dei Cluster, ANOVA.

    Ultimo aggiornamento: