Lasso

Indice dei contenuti

    Il lasso è una regressione lineare regolarizzata con penalità L^1:

    \hat\beta_{\text{lasso}}=\arg\min_\beta \left\{\|Y-X\beta\|^2+\lambda\|\beta\|_1\right\}.

    La penalità assoluta può portare alcuni coefficienti esattamente a zero, producendo selezione automatica delle variabili.

    Il metodo è utile in modelli con molti predittori, ma richiede standardizzazione delle covariate. Con regressori molto correlati può selezionare una variabile tra molte equivalenti in modo instabile; elastic net è spesso più robusto in questi casi.

    Forma penalizzata e forma vincolata

    La formulazione penalizzata del lasso è

    \hat\beta_{\text{lasso}} = \operatorname*{arg\,min}_\beta \left\{ \|Y-X\beta\|_2^2 + \lambda\sum_{j=1}^p|\beta_j| \right\}.

    La forma vincolata equivalente è

    \min_\beta \|Y-X\beta\|_2^2 \qquad \text{soggetto a} \qquad \|\beta\|_1\le t.

    Il parametro \lambda controlla l’intensità della regolarizzazione: se \lambda=0, si torna ai minimi quadrati; se \lambda cresce, i coefficienti vengono contratti verso zero.

    Perché produce coefficienti nulli

    La geometria della penalità L^1 spiega la sparsità. In due dimensioni, il vincolo

    |\beta_1|+|\beta_2|\le t

    ha forma a rombo, con spigoli sugli assi. Le curve di livello dell’errore quadratico tendono a toccare il vincolo proprio sugli spigoli, dove uno o più coefficienti sono esattamente zero.

    Questa è la differenza principale rispetto alla ridge regression, che usa una penalità L^2 liscia e tende a ridurre i coefficienti senza annullarli.

    Standardizzazione

    La penalità dipende dalla scala delle variabili. Se una covariata è misurata in millimetri e un’altra in metri, la stessa informazione fisica può essere penalizzata in modo diverso solo per effetto dell’unità di misura. Per questo si standardizzano le colonne di X prima della stima.

    L’intercetta non viene normalmente penalizzata. Operativamente si centra Y, si standardizzano le covariate e poi, se serve, si riportano i coefficienti alla scala originale.

    Scelta di lambda

    Il parametro \lambda non va scelto sul test set. Si usa di norma validazione incrociata o un criterio informativo. Valori piccoli producono modelli più complessi; valori grandi producono modelli più sparsi ma più distorti.

    La curva dei coefficienti al variare di \lambda è spesso informativa: mostra quando le variabili entrano nel modello e quanto stabilmente contribuiscono alla previsione.

    Collinearità e instabilità

    In presenza di multicollinearità, il lasso può scegliere una variabile tra molte quasi equivalenti e azzerare le altre. Questo può essere utile per costruire un modello compatto, ma può rendere instabile l’interpretazione: piccole variazioni del campione possono selezionare un predittore diverso.

    Quando gruppi di variabili correlate devono essere mantenuti insieme, elastic net è spesso più adatta perché combina penalità L^1 e L^2.

    Interpretazione

    Il lasso è insieme metodo predittivo e procedura di selezione variabili. Tuttavia, i coefficienti stimati sono distorti dalla penalità: non vanno interpretati come stime non distorte degli effetti reali. Dopo la selezione, se l’obiettivo è inferenziale, servono procedure dedicate per tenere conto del processo di selezione.

    In ingegneria dei dati è utile quando molti sensori, feature o indicatori sono candidati e si vuole un modello compatto, controllando il rischio di sovradattamento.

    Errori comuni

    Un errore frequente è dire che le variabili escluse sono certamente irrilevanti. Il lasso dice solo che, per quel dataset e quel valore di \lambda, la penalità ha favorito un modello senza quei coefficienti.

    Un altro errore è confrontare coefficienti lasso senza standardizzazione o scegliere \lambda guardando ripetutamente le prestazioni finali. In entrambi i casi la selezione può sembrare più affidabile di quanto sia realmente.

    Ultimo aggiornamento: