Ridge regression

Indice dei contenuti

    La ridge regression è una regressione lineare con penalità quadratica sui coefficienti:

    \hat\beta_{\text{ridge}}=\arg\min_\beta \left\{\|Y-X\beta\|^2+\lambda\|\beta\|_2^2\right\}.

    La penalità L^2 riduce l’ampiezza dei coefficienti, stabilizzando la stima quando i regressori sono collineari o il modello ha molte variabili.

    Ridge introduce bias ma può ridurre molto la varianza, migliorando l’errore predittivo. Le covariate vanno standardizzate e l’intercetta di norma non viene penalizzata.

    Soluzione matriciale

    Nel caso lineare classico, la soluzione dei minimi quadrati ordinari è

    \hat\beta_{\text{OLS}}=(X^TX)^{-1}X^TY,

    quando X^TX è invertibile. La ridge sostituisce questa soluzione con

    \hat\beta_{\text{ridge}} = (X^TX+\lambda I)^{-1}X^TY.

    Il termine \lambda I aumenta gli autovalori della matrice da invertire e rende il problema più stabile numericamente. Questa è la ragione per cui ridge è particolarmente utile in presenza di multicollinearità o quando il numero di regressori è grande rispetto al numero di osservazioni.

    L’intercetta, quando presente, non viene di norma penalizzata. Per questo si centra la risposta e si standardizzano i regressori prima di applicare la penalità.

    Effetto della penalità

    Il parametro \lambda\ge0 controlla la forza della regolarizzazione. Se \lambda=0, si torna ai minimi quadrati ordinari. Se \lambda cresce, i coefficienti vengono progressivamente contratti verso zero:

    \|\hat\beta_{\text{ridge}}\|_2 \quad \text{diminuisce al crescere di } \lambda.

    La ridge non impone esattamente coefficienti nulli, quindi non è uno strumento di selezione automatica delle variabili. Riduce invece l’ampiezza dei coefficienti, stabilizza le stime e spesso migliora la predizione fuori campione.

    Bias-varianza

    La ridge introduce bias perché la stima non coincide più con quella non penalizzata. Il vantaggio è la riduzione della varianza della stima. In molte applicazioni l’errore quadratico medio

    E\!\left[(\hat y-y)^2\right]

    può diminuire anche se la stima è distorta, perché il guadagno in stabilità supera la perdita dovuta al bias.

    Questa logica è centrale in apprendimento automatico: il modello non viene valutato solo per aderenza ai dati di addestramento, ma per capacità di generalizzare.

    Interpretazione geometrica

    La forma vincolata equivalente è

    \min_\beta \|Y-X\beta\|^2 \qquad \text{soggetto a} \qquad \|\beta\|_2^2\le t.

    Il parametro t è collegato a \lambda: vincoli più stretti corrispondono a penalità più forti. Geometricamente, la soluzione è il punto in cui le superfici di errore incontrano una sfera nello spazio dei coefficienti. Poiché la sfera L^2 è liscia, la soluzione tende a contrarre molti coefficienti senza annullarli esattamente.

    Questa è una differenza essenziale rispetto alla lasso, che usa penalità L^1 e può produrre coefficienti esattamente nulli.

    Scelta di lambda

    Il valore di \lambda non va scelto guardando solo l’errore sul campione di addestramento: all’aumentare della flessibilità, quell’errore tende sempre a migliorare. In pratica si usa validazione incrociata, separazione training-test o criteri informativi.

    La curva tipica mostra errore alto per \lambda troppo grande, perché il modello è troppo contratto, ed errore alto per \lambda troppo piccolo, perché il modello è instabile o sovradattato. Il valore utile sta nel compromesso.

    Standardizzazione

    La penalità \|\beta\|_2^2 dipende dalla scala delle variabili. Se un regressore è misurato in millimetri e un altro in metri, la stessa variazione fisica produce coefficienti numericamente diversi. Penalizzare senza standardizzare significa penalizzare in modo disomogeneo.

    Per questo si trasformano spesso le colonne di X in variabili a media zero e deviazione standard unitaria. Dopo la stima, i coefficienti possono essere riportati alla scala originaria se serve interpretazione fisica.

    Errori comuni

    Un errore frequente è interpretare i coefficienti ridge come se fossero coefficienti OLS non distorti. La penalità li contrae deliberatamente: il loro valore serve soprattutto a predire in modo stabile. Un altro errore è usare ridge per ottenere selezione di variabili; per quello sono più adatte penalità sparse come lasso o elastic net.

    In ingegneria dei dati, ridge è una scelta robusta quando molte variabili sono correlate e si vuole mantenere tutto il patrimonio informativo senza far esplodere l’incertezza dei coefficienti individuali.

    Ultimo aggiornamento: