L’R quadro misura la quota di variabilità della risposta spiegata da un modello di regressione lineare rispetto alla variabilità totale:
Con intercetta, R^2 appartiene a [0,1]; senza intercetta può assumere comportamenti meno intuitivi.
Un valore alto non garantisce causalità, correttezza del modello o buona predizione fuori campione. Va sempre letto insieme a residui, validazione, complessità del modello e significato fisico delle variabili.
Decomposizione della variabilità
In un modello con intercetta, la somma totale dei quadrati è
La somma dei quadrati residui è
La parte spiegata dal modello è
Con intercetta e stima ai minimi quadrati, vale la decomposizione
Di conseguenza
Interpretazione
Un valore R^2=0{,}80 indica che, nel campione considerato e rispetto alla media \bar y, il modello riduce dell’80% la variabilità residua. Non significa che l’80% dei casi sia previsto correttamente, né che l’80% del fenomeno sia causato dalle variabili inserite.
Il riferimento implicito è il modello nullo che predice sempre \bar y. R quadro confronta il modello stimato con questa previsione banale.
Relazione con la correlazione
Nella regressione lineare semplice con intercetta, R^2 coincide con il quadrato della correlazione campionaria tra x e y:
Nella regressione multipla questa interpretazione diretta non vale più, ma R^2 può essere letto come quadrato della correlazione tra valori osservati e valori predetti:
sempre nel contesto OLS con intercetta.
R quadro corretto
Aggiungere regressori non peggiora mai R^2 sul campione di addestramento, anche se le nuove variabili sono poco informative. Per penalizzare la complessità si usa spesso l’R quadro corretto:
dove p è il numero di regressori esclusa l’intercetta. Questo indice può diminuire quando una variabile aggiunta non compensa il costo in gradi di libertà.
L’R quadro corretto è più prudente, ma non sostituisce validazione esterna, analisi dei residui e controllo delle ipotesi del modello.
Quando può essere fuorviante
Un R^2 alto può convivere con:
- relazione non causale;
- extrapolazione pericolosa fuori dal dominio osservato;
- residui strutturati;
- variabili omesse;
- multicollinearità;
- sovradattamento.
Viceversa, un R^2 basso non rende automaticamente inutile un modello. In fenomeni rumorosi, biologici, sociali o produttivi, anche una piccola quota di variabilità spiegata può avere valore decisionale se l’effetto è stabile e interpretabile.
Modelli senza intercetta
La proprietà 0\le R^2\le1 dipende dalla presenza dell’intercetta e dalla decomposizione ortogonale dei minimi quadrati. Nei modelli senza intercetta, SS_{\text{tot}} e SS_{\text{res}} non si combinano nello stesso modo e R^2 può assumere valori negativi o poco intuitivi.
Per questo confrontare R^2 tra modelli con e senza intercetta può essere ingannevole. L’intercetta non va rimossa solo per migliorare una metrica: va rimossa solo quando il vincolo ha giustificazione fisica o teorica.
Predizione fuori campione
L’R quadro calcolato sui dati di addestramento misura adattamento, non generalizzazione. Per stimare prestazioni predittive conviene calcolare un R^2 su dati non usati per la stima:
Se questo valore è molto più basso dell’R quadro di training, il modello potrebbe essere sovradattato o instabile.
Errori comuni
L’errore più comune è usare R^2 come certificato di bontà generale del modello. Un modello può avere R quadro elevato e violare linearità, omoschedasticità o indipendenza dei residui. Un altro errore è massimizzare R quadro aggiungendo variabili senza ragione tecnica.
In analisi ingegneristica, R quadro è utile come indicatore sintetico, ma deve essere letto insieme a grafici dei residui, incertezza sui coefficienti, significato delle variabili, capacità predittiva e robustezza rispetto a nuovi dati.