Bagging

Indice dei contenuti

    Il bagging, abbreviazione di bootstrap aggregating, è una tecnica ensemble che costruisce molti modelli dello stesso tipo su campioni bootstrap del dataset e ne combina le predizioni. L’obiettivo principale è ridurre la varianza del modello finale senza aumentare troppo il bias.

    È particolarmente efficace con modelli instabili, cioè modelli che cambiano molto quando il campione di addestramento viene leggermente perturbato. Gli alberi di decisione profondi sono l’esempio classico: hanno bassa distorsione, ma alta variabilità.

    Campioni bootstrap

    Dato un dataset di addestramento

    \mathcal{D}=\{(x_i,y_i)\}_{i=1}^n,

    il bagging genera B campioni bootstrap

    \mathcal{D}^{(1)},\dots,\mathcal{D}^{(B)}

    estraendo ogni volta n osservazioni con reinserimento. Alcune osservazioni compaiono più volte nello stesso campione, altre restano fuori. Su ciascun campione si addestra un modello base:

    \hat f^{(b)}(x), \qquad b=1,\dots,B.

    Questa procedura crea predittori diversi pur usando lo stesso algoritmo di apprendimento.

    Aggregazione delle predizioni

    In regressione, la predizione finale è la media:

    \hat f_{\mathrm{bag}}(x) = \dfrac{1}{B}\sum_{b=1}^B \hat f^{(b)}(x).

    In classificazione si usa spesso il voto di maggioranza:

    \hat y_{\mathrm{bag}}(x) = \operatorname{mode} \left\{ \hat y^{(1)}(x),\dots,\hat y^{(B)}(x) \right\}.

    Quando i modelli producono probabilità, si possono mediare le probabilità previste e poi applicare una soglia. Questo è utile quando si vuole analizzare anche la calibrazione delle probabilità, non solo l’accuratezza delle classi finali.

    Riduzione della varianza

    Se i modelli base hanno varianza \sigma^2 e correlazione media \rho, la varianza della media ensemble è, in forma qualitativa,

    \operatorname{Var}(\hat f_{\mathrm{bag}}) \approx \rho\sigma^2+\dfrac{1-\rho}{B}\sigma^2.

    La formula mostra due fatti importanti: aumentare B riduce la componente non correlata, ma la componente dovuta alla correlazione tra modelli resta. Per questo il bagging funziona bene quando i modelli base sono diversi tra loro; se tutti fanno quasi la stessa previsione, la media porta poco vantaggio.

    Le random forest aggiungono un ulteriore meccanismo di casualità: a ogni split dell’albero considerano solo un sottoinsieme casuale delle feature. Questo riduce la correlazione tra alberi e può migliorare la prestazione rispetto al bagging puro di alberi.

    Out-of-bag

    Poiché ogni campione bootstrap lascia fuori una parte delle osservazioni, si può stimare l’errore usando le osservazioni out-of-bag. Per una data osservazione (x_i,y_i) si considerano solo i modelli addestrati su campioni che non contenevano quell’osservazione, e si aggregano le loro predizioni.

    Questa stima è utile perché fornisce una validazione interna senza costruire esplicitamente un validation set separato. Non sostituisce sempre una validazione finale indipendente, ma è molto pratica nello sviluppo del modello.

    Rapporto con bias e varianza

    Nel bias-variance tradeoff, il bagging agisce soprattutto sulla varianza. Non trasforma un modello fortemente distorto in un modello corretto: se il modello base è troppo semplice, mediare molte copie non elimina il bias strutturale.

    Per questo il bagging è meno utile con modelli già stabili, come regressioni lineari poco variabili, e molto più utile con alberi profondi, modelli a soglia o procedure sensibili al campione.

    Errori comuni

    Il primo errore è pensare che il bagging migliori sempre qualunque algoritmo: se i modelli base sono troppo correlati o troppo distorti, il guadagno può essere modesto. Il secondo è usare pochi modelli e interpretare l’ensemble come stabilizzato: spesso servono decine o centinaia di componenti. Il terzo è confondere bagging e boosting: il bagging addestra modelli in parallelo su campioni diversi, mentre il boosting costruisce l’ensemble in modo sequenziale correggendo gli errori residui.

    Per esercizi su soglie, classificazione e metriche si veda anche classificazione e metriche: esercizi svolti.

    Ultimo aggiornamento: