La ridge regression è una regressione lineare con penalità quadratica sui coefficienti:
La penalità L^2 riduce l’ampiezza dei coefficienti, stabilizzando la stima quando i regressori sono collineari o il modello ha molte variabili.
Ridge introduce bias ma può ridurre molto la varianza, migliorando l’errore predittivo. Le covariate vanno standardizzate e l’intercetta di norma non viene penalizzata.
Soluzione matriciale
Nel caso lineare classico, la soluzione dei minimi quadrati ordinari è
quando X^TX è invertibile. La ridge sostituisce questa soluzione con
Il termine \lambda I aumenta gli autovalori della matrice da invertire e rende il problema più stabile numericamente. Questa è la ragione per cui ridge è particolarmente utile in presenza di multicollinearità o quando il numero di regressori è grande rispetto al numero di osservazioni.
L’intercetta, quando presente, non viene di norma penalizzata. Per questo si centra la risposta e si standardizzano i regressori prima di applicare la penalità.
Effetto della penalità
Il parametro \lambda\ge0 controlla la forza della regolarizzazione. Se \lambda=0, si torna ai minimi quadrati ordinari. Se \lambda cresce, i coefficienti vengono progressivamente contratti verso zero:
La ridge non impone esattamente coefficienti nulli, quindi non è uno strumento di selezione automatica delle variabili. Riduce invece l’ampiezza dei coefficienti, stabilizza le stime e spesso migliora la predizione fuori campione.
Bias-varianza
La ridge introduce bias perché la stima non coincide più con quella non penalizzata. Il vantaggio è la riduzione della varianza della stima. In molte applicazioni l’errore quadratico medio
può diminuire anche se la stima è distorta, perché il guadagno in stabilità supera la perdita dovuta al bias.
Questa logica è centrale in apprendimento automatico: il modello non viene valutato solo per aderenza ai dati di addestramento, ma per capacità di generalizzare.
Interpretazione geometrica
La forma vincolata equivalente è
Il parametro t è collegato a \lambda: vincoli più stretti corrispondono a penalità più forti. Geometricamente, la soluzione è il punto in cui le superfici di errore incontrano una sfera nello spazio dei coefficienti. Poiché la sfera L^2 è liscia, la soluzione tende a contrarre molti coefficienti senza annullarli esattamente.
Questa è una differenza essenziale rispetto alla lasso, che usa penalità L^1 e può produrre coefficienti esattamente nulli.
Scelta di lambda
Il valore di \lambda non va scelto guardando solo l’errore sul campione di addestramento: all’aumentare della flessibilità, quell’errore tende sempre a migliorare. In pratica si usa validazione incrociata, separazione training-test o criteri informativi.
La curva tipica mostra errore alto per \lambda troppo grande, perché il modello è troppo contratto, ed errore alto per \lambda troppo piccolo, perché il modello è instabile o sovradattato. Il valore utile sta nel compromesso.
Standardizzazione
La penalità \|\beta\|_2^2 dipende dalla scala delle variabili. Se un regressore è misurato in millimetri e un altro in metri, la stessa variazione fisica produce coefficienti numericamente diversi. Penalizzare senza standardizzare significa penalizzare in modo disomogeneo.
Per questo si trasformano spesso le colonne di X in variabili a media zero e deviazione standard unitaria. Dopo la stima, i coefficienti possono essere riportati alla scala originaria se serve interpretazione fisica.
Errori comuni
Un errore frequente è interpretare i coefficienti ridge come se fossero coefficienti OLS non distorti. La penalità li contrae deliberatamente: il loro valore serve soprattutto a predire in modo stabile. Un altro errore è usare ridge per ottenere selezione di variabili; per quello sono più adatte penalità sparse come lasso o elastic net.
In ingegneria dei dati, ridge è una scelta robusta quando molte variabili sono correlate e si vuole mantenere tutto il patrimonio informativo senza far esplodere l’incertezza dei coefficienti individuali.