Elastic net — ingegnerismo.it

L’elastic net è un metodo di regressione regolarizzata che combina la penalità $\ell_1$ del lasso con la penalità $\ell_2$ della ridge regression. Serve quando si vuole costruire un modello predittivo stabile, ma anche capace di selezionare un sottoinsieme di variabili rilevanti. È particolarmente utile nei problemi con molti regressori, collinearità elevata o numero di variabili comparabile alla numerosità campionaria.

Una forma comune del problema di stima è:

\hat\beta = \arg\min_{\beta} \left\{ \dfrac{1}{2n}\|y-X\beta\|_2^2 +\lambda\left[ \alpha\|\beta\|_1+ \dfrac{1-\alpha}{2}\|\beta\|_2^2 \right] \right\}.

Qui $y$ è il vettore delle risposte, $X$ la matrice dei regressori, $\beta$ il vettore dei coefficienti, $\lambda\ge 0$ controlla l’intensità complessiva della regolarizzazione e $\alpha\in[0,1]$ bilancia le due penalità. Con $\alpha=1$ si ottiene il lasso; con $\alpha=0$ si ottiene ridge. Valori intermedi producono il comportamento caratteristico dell’elastic net.

Ruolo delle due penalità

La penalità $\ell_1$ favorisce la sparsità: alcuni coefficienti vengono portati esattamente a zero, quindi il modello effettua selezione di variabili. Questo è utile quando si sospetta che solo una parte dei predittori sia davvero informativa. La penalità $\ell_2$ , invece, non annulla di norma i coefficienti, ma li contrae in modo continuo verso zero; il suo effetto principale è ridurre la varianza della stima e stabilizzare il modello quando i regressori sono fortemente correlati.

L’elastic net eredita entrambi i vantaggi. Rispetto al lasso puro tende a gestire meglio gruppi di variabili collineari, perché può selezionarle insieme invece di sceglierne una in modo instabile. Rispetto alla ridge pura produce modelli più leggibili, perché può eliminare variabili con contributo trascurabile.

Interpretazione ingegneristica

In applicazioni ingegneristiche l’elastic net è adatto a modelli predittivi con molte misure sensoriali, feature derivate da segnali, indicatori di processo, variabili ambientali o descrittori di progetto. In questi casi i predittori sono spesso ridondanti: più sensori misurano grandezze correlate, più feature descrivono lo stesso fenomeno fisico, più indici statistici estratti da un segnale variano insieme.

La regolarizzazione permette di ridurre l’instabilità che comparirebbe con una regressione ordinaria. Se due colonne di $X$ sono quasi linearmente dipendenti, i coefficienti stimati con minimi quadrati possono cambiare molto per piccole perturbazioni dei dati. L’elastic net limita questa sensibilità e produce previsioni più robuste fuori campione.

Scelta dei parametri

I parametri $\lambda$ e $\alpha$ non sono dettagli secondari. Un $\lambda$ troppo piccolo lascia il modello quasi non regolarizzato e quindi esposto a overfitting; un $\lambda$ troppo grande appiattisce i coefficienti e può introdurre bias eccessivo. Il parametro $\alpha$ decide quanto il modello deve privilegiare selezione sparsa o stabilizzazione di gruppo.

La scelta avviene di solito con validazione incrociata. È importante che standardizzazione, trasformazioni, eventuale selezione preliminare di feature e tuning siano svolti dentro il processo di validazione, non prima, altrimenti si introduce data leakage. Poiché la penalità dipende dalla scala dei predittori, le colonne di $X$ vengono quasi sempre standardizzate prima della stima.

Limiti ed errori comuni

L’elastic net non rende causale un modello predittivo: coefficienti diversi da zero indicano utilità predittiva condizionata ai dati e alla penalizzazione, non necessariamente effetto fisico diretto. Inoltre la selezione delle variabili può cambiare al variare del campione, soprattutto quando molti predittori sono simili; per analisi interpretative conviene valutare stabilità, intervalli o procedure di bootstrap.

Un altro errore è confrontare direttamente i coefficienti senza considerare la standardizzazione. Se il modello è stimato su variabili scalate, i coefficienti descrivono effetti nella scala standardizzata; per un’interpretazione nelle unità fisiche originali bisogna trasformarli o leggere il modello con cautela.

In sintesi, l’elastic net è una soluzione intermedia tra parsimonia e stabilità. È efficace quando il problema richiede previsione affidabile, controllo dell’overfitting e gestione di regressori correlati, purché la scelta degli iperparametri sia validata correttamente.