Selezione delle feature — ingegnerismo.it

La selezione delle feature è il processo con cui si sceglie un sottoinsieme di variabili predittive da usare in un modello. L’obiettivo può essere migliorare la generalizzazione, ridurre il costo di misura, aumentare l’interpretabilità, diminuire la dimensionalità o eliminare variabili ridondanti e rumorose.

Non va confusa con l’estrazione di feature. Nella selezione si scelgono alcune variabili tra quelle disponibili; nell’estrazione si costruiscono nuove variabili trasformando quelle originali, per esempio con PCA, embedding o trasformate di segnale.

Perché selezionare

In molti problemi tecnici le variabili disponibili sono numerose: sensori, indicatori statistici, parametri di processo, descrittori geometrici, trasformate spettrali, lag temporali, feature derivate da immagini o segnali. Usarle tutte può aumentare il rischio di overfitting, rendere il modello instabile, rallentare l’addestramento e complicare la spiegazione del risultato.

La selezione è utile anche quando ogni variabile ha un costo. In manutenzione predittiva un sensore può richiedere installazione e taratura; in controllo qualità una misura può richiedere tempo di laboratorio; in diagnostica una feature può dipendere da una prova invasiva. Un modello con poche variabili robuste può essere preferibile a un modello leggermente più accurato ma costoso o fragile.

Metodi filter

I metodi filter valutano le variabili prima o indipendentemente dal modello finale. Esempi comuni sono correlazione con la risposta, test statistici univariati, informazione mutua, varianza minima, indici di ridondanza o punteggi basati su separabilità tra classi.

Sono veloci e scalabili, ma possono perdere interazioni. Una variabile poco utile da sola può diventare importante insieme ad altre; una variabile molto correlata alla risposta può essere ridondante perché replica informazione già contenuta in un’altra feature. I filter sono quindi utili come prima scrematura, non sempre come decisione finale.

Metodi wrapper

I metodi wrapper valutano sottoinsiemi di feature addestrando e validando un modello. Esempi sono forward selection, backward elimination e ricerca euristica su sottoinsiemi. La qualità di una feature viene giudicata in funzione della prestazione del modello e della metrica scelta.

Il vantaggio è che il metodo tiene conto del modello effettivo. Il limite è il costo computazionale e il rischio di overfitting alla procedura di validazione, soprattutto se si provano molti sottoinsiemi su pochi dati. Per questo i wrapper richiedono una validazione rigorosa e, spesso, una validazione annidata.

Metodi embedded

I metodi embedded selezionano le feature durante l’addestramento del modello. Il lasso porta alcuni coefficienti esattamente a zero; l’elastic net combina selezione e stabilità; alberi, foreste e boosting producono misure di importanza; modelli lineari penalizzati o regolarizzati incorporano la selezione nella funzione obiettivo.

Questi metodi sono efficienti perché non separano completamente stima e selezione. Tuttavia le importanze non sono sempre interpretabili come effetti causali. In presenza di feature correlate, un modello può distribuire o scambiare l’importanza tra variabili simili.

Data leakage

La selezione deve essere inserita dentro la validazione incrociata. Se viene fatta prima dello split, le informazioni del test entrano nel training e la stima dell’errore diventa ottimistica. Questo vale anche per operazioni apparentemente innocue, come scegliere le feature più correlate alla risposta sull’intero dataset prima di dividere i dati.

La procedura corretta è: dentro ogni fold si selezionano le feature usando solo il training fold, si addestra il modello con quelle feature e si valuta sul validation fold. Se il numero di feature, la soglia o il metodo di selezione sono iperparametri, anch’essi vanno scelti dentro il ciclo di tuning.

Stabilità

Una buona selezione non dovrebbe cambiare completamente per piccole perturbazioni del campione. La stabilità può essere valutata con bootstrap, ripetizioni di cross-validation o confronto tra sottoinsiemi selezionati in fold diversi. Se feature diverse ma molto correlate vengono selezionate in modo alternato, il fenomeno può essere stabile anche se i nomi delle variabili cambiano; se invece la selezione è caotica, l’interpretazione è debole.

Nei sistemi fisici conviene anche confrontare le feature selezionate con conoscenza di dominio. Un modello può scegliere una variabile spuria perché correlata a un lotto, una macchina, un operatore o una condizione sperimentale non rappresentativa. La feature è predittiva nel dataset, ma non necessariamente generalizza.

Interpretabilità e causalità

Selezionare una feature non significa dimostrare che essa causi la risposta. Significa che, nel modello e nei dati considerati, quella variabile contribuisce alla previsione o alla spiegazione statistica. Causalità, meccanismo fisico e utilità predittiva sono concetti distinti.

Per report tecnici è utile distinguere tra feature scelte per prestazione e feature scelte per interpretabilità. Un piccolo insieme di variabili fisicamente leggibili può essere preferibile a un insieme leggermente più performante ma opaco, soprattutto in contesti regolati o safety-critical.

Errori comuni

Il primo errore è selezionare feature sull’intero dataset prima della valutazione. Il secondo è scegliere il sottoinsieme che massimizza una metrica su un solo split casuale e considerarlo stabile. Il terzo è eliminare variabili solo perché correlate tra loro senza capire quale sia più misurabile, robusta o causalmente vicina al fenomeno.

Un altro errore è usare importanze di modelli ad albero senza considerare bias verso variabili con molti possibili split o scale diverse. Le importanze vanno interpretate con diagnostiche e, quando serve, con permutazioni o analisi di stabilità.

Vedi anche: mappa di feature, validazione incrociata, lasso.