Ridge regression — ingegnerismo.it

La ridge regression è una regressione lineare con penalità quadratica sui coefficienti:

\hat\beta_{\text{ridge}}=\arg\min_\beta \left\{\|Y-X\beta\|^2+\lambda\|\beta\|_2^2\right\}.

La penalità $L^2$ riduce l’ampiezza dei coefficienti, stabilizzando la stima quando i regressori sono collineari o il modello ha molte variabili.

Ridge introduce bias ma può ridurre molto la varianza, migliorando l’errore predittivo. Le covariate vanno standardizzate e l’intercetta di norma non viene penalizzata.

Soluzione matriciale

Nel caso lineare classico, la soluzione dei minimi quadrati ordinari è

\hat\beta_{\text{OLS}}=(X^TX)^{-1}X^TY,

quando $X^TX$ è invertibile. La ridge sostituisce questa soluzione con

\hat\beta_{\text{ridge}} = (X^TX+\lambda I)^{-1}X^TY.

Il termine $\lambda I$ aumenta gli autovalori della matrice da invertire e rende il problema più stabile numericamente. Questa è la ragione per cui ridge è particolarmente utile in presenza di multicollinearità o quando il numero di regressori è grande rispetto al numero di osservazioni.

L’intercetta, quando presente, non viene di norma penalizzata. Per questo si centra la risposta e si standardizzano i regressori prima di applicare la penalità.

Effetto della penalità

Il parametro $\lambda\ge0$ controlla la forza della regolarizzazione. Se $\lambda=0$ , si torna ai minimi quadrati ordinari. Se $\lambda$ cresce, i coefficienti vengono progressivamente contratti verso zero:

\|\hat\beta_{\text{ridge}}\|_2 \quad \text{diminuisce al crescere di } \lambda.

La ridge non impone esattamente coefficienti nulli, quindi non è uno strumento di selezione automatica delle variabili. Riduce invece l’ampiezza dei coefficienti, stabilizza le stime e spesso migliora la predizione fuori campione.

Bias-varianza

La ridge introduce bias perché la stima non coincide più con quella non penalizzata. Il vantaggio è la riduzione della varianza della stima. In molte applicazioni l’errore quadratico medio

E\!\left[(\hat y-y)^2\right]

può diminuire anche se la stima è distorta, perché il guadagno in stabilità supera la perdita dovuta al bias.

Questa logica è centrale in apprendimento automatico: il modello non viene valutato solo per aderenza ai dati di addestramento, ma per capacità di generalizzare.

Interpretazione geometrica

La forma vincolata equivalente è

\min_\beta \|Y-X\beta\|^2 \qquad \text{soggetto a} \qquad \|\beta\|_2^2\le t.

Il parametro $t$ è collegato a $\lambda$ : vincoli più stretti corrispondono a penalità più forti. Geometricamente, la soluzione è il punto in cui le superfici di errore incontrano una sfera nello spazio dei coefficienti. Poiché la sfera $L^2$ è liscia, la soluzione tende a contrarre molti coefficienti senza annullarli esattamente.

Questa è una differenza essenziale rispetto alla lasso, che usa penalità $L^1$ e può produrre coefficienti esattamente nulli.

Scelta di lambda

Il valore di $\lambda$ non va scelto guardando solo l’errore sul campione di addestramento: all’aumentare della flessibilità, quell’errore tende sempre a migliorare. In pratica si usa validazione incrociata, separazione training-test o criteri informativi.

La curva tipica mostra errore alto per $\lambda$ troppo grande, perché il modello è troppo contratto, ed errore alto per $\lambda$ troppo piccolo, perché il modello è instabile o sovradattato. Il valore utile sta nel compromesso.

Standardizzazione

La penalità $\|\beta\|_2^2$ dipende dalla scala delle variabili. Se un regressore è misurato in millimetri e un altro in metri, la stessa variazione fisica produce coefficienti numericamente diversi. Penalizzare senza standardizzare significa penalizzare in modo disomogeneo.

Per questo si trasformano spesso le colonne di $X$ in variabili a media zero e deviazione standard unitaria. Dopo la stima, i coefficienti possono essere riportati alla scala originaria se serve interpretazione fisica.

Errori comuni

Un errore frequente è interpretare i coefficienti ridge come se fossero coefficienti OLS non distorti. La penalità li contrae deliberatamente: il loro valore serve soprattutto a predire in modo stabile. Un altro errore è usare ridge per ottenere selezione di variabili; per quello sono più adatte penalità sparse come lasso o elastic net.

In ingegneria dei dati, ridge è una scelta robusta quando molte variabili sono correlate e si vuole mantenere tutto il patrimonio informativo senza far esplodere l’incertezza dei coefficienti individuali.