Lasso — ingegnerismo.it

Il lasso è una regressione lineare regolarizzata con penalità $L^1$ :

\hat\beta_{\text{lasso}}=\arg\min_\beta \left\{\|Y-X\beta\|^2+\lambda\|\beta\|_1\right\}.

La penalità assoluta può portare alcuni coefficienti esattamente a zero, producendo selezione automatica delle variabili.

Il metodo è utile in modelli con molti predittori, ma richiede standardizzazione delle covariate. Con regressori molto correlati può selezionare una variabile tra molte equivalenti in modo instabile; elastic net è spesso più robusto in questi casi.

Forma penalizzata e forma vincolata

La formulazione penalizzata del lasso è

\hat\beta_{\text{lasso}} = \operatorname*{arg\,min}_\beta \left\{ \|Y-X\beta\|_2^2 + \lambda\sum_{j=1}^p|\beta_j| \right\}.

La forma vincolata equivalente è

\min_\beta \|Y-X\beta\|_2^2 \qquad \text{soggetto a} \qquad \|\beta\|_1\le t.

Il parametro $\lambda$ controlla l’intensità della regolarizzazione: se $\lambda=0$ , si torna ai minimi quadrati; se $\lambda$ cresce, i coefficienti vengono contratti verso zero.

Perché produce coefficienti nulli

La geometria della penalità $L^1$ spiega la sparsità. In due dimensioni, il vincolo

|\beta_1|+|\beta_2|\le t

ha forma a rombo, con spigoli sugli assi. Le curve di livello dell’errore quadratico tendono a toccare il vincolo proprio sugli spigoli, dove uno o più coefficienti sono esattamente zero.

Questa è la differenza principale rispetto alla ridge regression, che usa una penalità $L^2$ liscia e tende a ridurre i coefficienti senza annullarli.

Standardizzazione

La penalità dipende dalla scala delle variabili. Se una covariata è misurata in millimetri e un’altra in metri, la stessa informazione fisica può essere penalizzata in modo diverso solo per effetto dell’unità di misura. Per questo si standardizzano le colonne di $X$ prima della stima.

L’intercetta non viene normalmente penalizzata. Operativamente si centra $Y$ , si standardizzano le covariate e poi, se serve, si riportano i coefficienti alla scala originale.

Scelta di lambda

Il parametro $\lambda$ non va scelto sul test set. Si usa di norma validazione incrociata o un criterio informativo. Valori piccoli producono modelli più complessi; valori grandi producono modelli più sparsi ma più distorti.

La curva dei coefficienti al variare di $\lambda$ è spesso informativa: mostra quando le variabili entrano nel modello e quanto stabilmente contribuiscono alla previsione.

Collinearità e instabilità

In presenza di multicollinearità, il lasso può scegliere una variabile tra molte quasi equivalenti e azzerare le altre. Questo può essere utile per costruire un modello compatto, ma può rendere instabile l’interpretazione: piccole variazioni del campione possono selezionare un predittore diverso.

Quando gruppi di variabili correlate devono essere mantenuti insieme, elastic net è spesso più adatta perché combina penalità $L^1$ e $L^2$ .

Interpretazione

Il lasso è insieme metodo predittivo e procedura di selezione variabili. Tuttavia, i coefficienti stimati sono distorti dalla penalità: non vanno interpretati come stime non distorte degli effetti reali. Dopo la selezione, se l’obiettivo è inferenziale, servono procedure dedicate per tenere conto del processo di selezione.

In ingegneria dei dati è utile quando molti sensori, feature o indicatori sono candidati e si vuole un modello compatto, controllando il rischio di sovradattamento.

Errori comuni

Un errore frequente è dire che le variabili escluse sono certamente irrilevanti. Il lasso dice solo che, per quel dataset e quel valore di $\lambda$ , la penalità ha favorito un modello senza quei coefficienti.

Un altro errore è confrontare coefficienti lasso senza standardizzazione o scegliere $\lambda$ guardando ripetutamente le prestazioni finali. In entrambi i casi la selezione può sembrare più affidabile di quanto sia realmente.