R quadro

Indice dei contenuti

    L’R quadro misura la quota di variabilità della risposta spiegata da un modello di regressione lineare rispetto alla variabilità totale:

    R^2=1-\dfrac{SS_{\text{res}}}{SS_{\text{tot}}}.

    Con intercetta, R^2 appartiene a [0,1]; senza intercetta può assumere comportamenti meno intuitivi.

    Un valore alto non garantisce causalità, correttezza del modello o buona predizione fuori campione. Va sempre letto insieme a residui, validazione, complessità del modello e significato fisico delle variabili.

    Decomposizione della variabilità

    In un modello con intercetta, la somma totale dei quadrati è

    SS_{\text{tot}} = \sum_{i=1}^n (y_i-\bar y)^2.

    La somma dei quadrati residui è

    SS_{\text{res}} = \sum_{i=1}^n (y_i-\hat y_i)^2.

    La parte spiegata dal modello è

    SS_{\text{reg}} = \sum_{i=1}^n (\hat y_i-\bar y)^2.

    Con intercetta e stima ai minimi quadrati, vale la decomposizione

    SS_{\text{tot}} = SS_{\text{reg}}+SS_{\text{res}}.

    Di conseguenza

    R^2= \dfrac{SS_{\text{reg}}}{SS_{\text{tot}}} = 1-\dfrac{SS_{\text{res}}}{SS_{\text{tot}}}.

    Interpretazione

    Un valore R^2=0{,}80 indica che, nel campione considerato e rispetto alla media \bar y, il modello riduce dell’80% la variabilità residua. Non significa che l’80% dei casi sia previsto correttamente, né che l’80% del fenomeno sia causato dalle variabili inserite.

    Il riferimento implicito è il modello nullo che predice sempre \bar y. R quadro confronta il modello stimato con questa previsione banale.

    Relazione con la correlazione

    Nella regressione lineare semplice con intercetta, R^2 coincide con il quadrato della correlazione campionaria tra x e y:

    R^2=r_{xy}^2.

    Nella regressione multipla questa interpretazione diretta non vale più, ma R^2 può essere letto come quadrato della correlazione tra valori osservati e valori predetti:

    R^2=\operatorname{cor}(y,\hat y)^2,

    sempre nel contesto OLS con intercetta.

    R quadro corretto

    Aggiungere regressori non peggiora mai R^2 sul campione di addestramento, anche se le nuove variabili sono poco informative. Per penalizzare la complessità si usa spesso l’R quadro corretto:

    \bar R^2 = 1- \dfrac{SS_{\text{res}}/(n-p-1)} {SS_{\text{tot}}/(n-1)},

    dove p è il numero di regressori esclusa l’intercetta. Questo indice può diminuire quando una variabile aggiunta non compensa il costo in gradi di libertà.

    L’R quadro corretto è più prudente, ma non sostituisce validazione esterna, analisi dei residui e controllo delle ipotesi del modello.

    Quando può essere fuorviante

    Un R^2 alto può convivere con:

    1. relazione non causale;
    2. extrapolazione pericolosa fuori dal dominio osservato;
    3. residui strutturati;
    4. variabili omesse;
    5. multicollinearità;
    6. sovradattamento.

    Viceversa, un R^2 basso non rende automaticamente inutile un modello. In fenomeni rumorosi, biologici, sociali o produttivi, anche una piccola quota di variabilità spiegata può avere valore decisionale se l’effetto è stabile e interpretabile.

    Modelli senza intercetta

    La proprietà 0\le R^2\le1 dipende dalla presenza dell’intercetta e dalla decomposizione ortogonale dei minimi quadrati. Nei modelli senza intercetta, SS_{\text{tot}} e SS_{\text{res}} non si combinano nello stesso modo e R^2 può assumere valori negativi o poco intuitivi.

    Per questo confrontare R^2 tra modelli con e senza intercetta può essere ingannevole. L’intercetta non va rimossa solo per migliorare una metrica: va rimossa solo quando il vincolo ha giustificazione fisica o teorica.

    Predizione fuori campione

    L’R quadro calcolato sui dati di addestramento misura adattamento, non generalizzazione. Per stimare prestazioni predittive conviene calcolare un R^2 su dati non usati per la stima:

    R^2_{\text{test}} = 1- \dfrac{\sum_i (y_i-\hat y_i)^2} {\sum_i (y_i-\bar y_{\text{train}})^2}.

    Se questo valore è molto più basso dell’R quadro di training, il modello potrebbe essere sovradattato o instabile.

    Errori comuni

    L’errore più comune è usare R^2 come certificato di bontà generale del modello. Un modello può avere R quadro elevato e violare linearità, omoschedasticità o indipendenza dei residui. Un altro errore è massimizzare R quadro aggiungendo variabili senza ragione tecnica.

    In analisi ingegneristica, R quadro è utile come indicatore sintetico, ma deve essere letto insieme a grafici dei residui, incertezza sui coefficienti, significato delle variabili, capacità predittiva e robustezza rispetto a nuovi dati.

    Ultimo aggiornamento: