Il lasso è una regressione lineare regolarizzata con penalità L^1:
La penalità assoluta può portare alcuni coefficienti esattamente a zero, producendo selezione automatica delle variabili.
Il metodo è utile in modelli con molti predittori, ma richiede standardizzazione delle covariate. Con regressori molto correlati può selezionare una variabile tra molte equivalenti in modo instabile; elastic net è spesso più robusto in questi casi.
Forma penalizzata e forma vincolata
La formulazione penalizzata del lasso è
La forma vincolata equivalente è
Il parametro \lambda controlla l’intensità della regolarizzazione: se \lambda=0, si torna ai minimi quadrati; se \lambda cresce, i coefficienti vengono contratti verso zero.
Perché produce coefficienti nulli
La geometria della penalità L^1 spiega la sparsità. In due dimensioni, il vincolo
ha forma a rombo, con spigoli sugli assi. Le curve di livello dell’errore quadratico tendono a toccare il vincolo proprio sugli spigoli, dove uno o più coefficienti sono esattamente zero.
Questa è la differenza principale rispetto alla ridge regression, che usa una penalità L^2 liscia e tende a ridurre i coefficienti senza annullarli.
Standardizzazione
La penalità dipende dalla scala delle variabili. Se una covariata è misurata in millimetri e un’altra in metri, la stessa informazione fisica può essere penalizzata in modo diverso solo per effetto dell’unità di misura. Per questo si standardizzano le colonne di X prima della stima.
L’intercetta non viene normalmente penalizzata. Operativamente si centra Y, si standardizzano le covariate e poi, se serve, si riportano i coefficienti alla scala originale.
Scelta di lambda
Il parametro \lambda non va scelto sul test set. Si usa di norma validazione incrociata o un criterio informativo. Valori piccoli producono modelli più complessi; valori grandi producono modelli più sparsi ma più distorti.
La curva dei coefficienti al variare di \lambda è spesso informativa: mostra quando le variabili entrano nel modello e quanto stabilmente contribuiscono alla previsione.
Collinearità e instabilità
In presenza di multicollinearità, il lasso può scegliere una variabile tra molte quasi equivalenti e azzerare le altre. Questo può essere utile per costruire un modello compatto, ma può rendere instabile l’interpretazione: piccole variazioni del campione possono selezionare un predittore diverso.
Quando gruppi di variabili correlate devono essere mantenuti insieme, elastic net è spesso più adatta perché combina penalità L^1 e L^2.
Interpretazione
Il lasso è insieme metodo predittivo e procedura di selezione variabili. Tuttavia, i coefficienti stimati sono distorti dalla penalità: non vanno interpretati come stime non distorte degli effetti reali. Dopo la selezione, se l’obiettivo è inferenziale, servono procedure dedicate per tenere conto del processo di selezione.
In ingegneria dei dati è utile quando molti sensori, feature o indicatori sono candidati e si vuole un modello compatto, controllando il rischio di sovradattamento.
Errori comuni
Un errore frequente è dire che le variabili escluse sono certamente irrilevanti. Il lasso dice solo che, per quel dataset e quel valore di \lambda, la penalità ha favorito un modello senza quei coefficienti.
Un altro errore è confrontare coefficienti lasso senza standardizzazione o scegliere \lambda guardando ripetutamente le prestazioni finali. In entrambi i casi la selezione può sembrare più affidabile di quanto sia realmente.