Il residuo standardizzato è un residuo diviso per una stima della sua deviazione standard. Serve a rendere confrontabili errori che, a parità di modello, possono avere varianze diverse. In regressione lineare è uno degli strumenti principali per diagnosticare osservazioni anomale, punti influenti e violazioni delle ipotesi del modello.
Se \widehat\varepsilon_i=y_i-\widehat y_i è il residuo ordinario, l’idea generale è
Un residuo standardizzato non dice solo “quanto è grande lo scarto”, ma “quanto è grande lo scarto rispetto alla variabilità attesa per quell’osservazione”.
Definizione in regressione lineare
Nel modello lineare stimato con minimi quadrati, la matrice hat
produce le predizioni \widehat y=Hy. La diagonale h_{ii}=H_{ii} misura la leva dell’osservazione, cioè il suo leverage score. Per questo la varianza del residuo non è identica per tutti i punti:
Il residuo standardizzato interno è quindi
Grandezze coinvolte
| Oggetto | Formula | Significato |
|---|---|---|
| Residuo ordinario | \displaystyle \widehat\varepsilon_i=y_i-\widehat y_i | Scarto verticale tra dato e predizione. |
| Leva | \displaystyle h_{ii}=H_{ii} | Peso geometrico dell’osservazione nel fit. |
| Varianza residua stimata | \displaystyle \widehat\sigma^2=\dfrac{\operatorname{SSE}}{n-p} | Scala globale degli errori del modello. |
| Deviazione standard del residuo | \displaystyle \widehat\sigma\sqrt{1-h_{ii}} | Scala locale del residuo dell’osservazione \displaystyle i. |
| Residuo standardizzato | \displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}} | Residuo espresso in unità di deviazione standard. |
Il fattore \sqrt{1-h_{ii}} è essenziale: i punti ad alta leva tendono ad avere residui ordinari artificialmente compressi. Standardizzare senza correggere per la leva può far apparire innocuo un punto che controlla molto il modello.
Residui interni ed esterni
In diagnostica della regressione lineare si distinguono spesso residui standardizzati interni e residui studentizzati esterni. La differenza è nella stima della varianza usata al denominatore.
| Tipo | Formula | Uso |
|---|---|---|
| Ordinario | \displaystyle \widehat\varepsilon_i=y_i-\widehat y_i | Misura lo scarto grezzo. |
| Standardizzato interno | \displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}} | Diagnostica rapida dei residui. |
| Studentizzato esterno | \displaystyle t_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma_{(i)}\sqrt{1-h_{ii}}} | Usa la varianza stimata eliminando l’osservazione \displaystyle i. |
| Regola indicativa | \displaystyle \lvert r_i\rvert>2 | Punto da ispezionare, non da eliminare automaticamente. |
| Allarme forte | \displaystyle \lvert r_i\rvert>3 | Possibile outlier rispetto al modello. |
Il residuo studentizzato esterno è più severo quando l’osservazione sospetta altera molto la stima della varianza residua. Per campioni piccoli è spesso preferibile al residuo standardizzato interno.
Lettura diagnostica
| Residuo standardizzato | Leva | Interpretazione |
|---|---|---|
| Piccolo | Bassa | Punto ordinario. |
| Grande | Bassa | Possibile outlier verticale. |
| Piccolo | Alta | Punto estremo ma allineato al modello. |
| Grande | Alta | Punto potenzialmente influente; controllare la distanza di Cook. |
Il residuo standardizzato individua errori verticali anomali; il leverage score individua punti geometricamente estremi; la distanza di Cook combina entrambe le informazioni. Le tre quantità vanno lette insieme.
Uso nel test chi-quadro
Nei conteggi e nelle tabelle di contingenza si usa spesso il residuo di Pearson, cioè lo scarto tra frequenza osservata e frequenza attesa diviso per la scala attesa:
Per tabelle a due vie, una correzione più accurata tiene conto dei marginali di riga e colonna:
| Contesto | Formula | Lettura |
|---|---|---|
| Cella singola | \displaystyle r=\dfrac{O-E}{\sqrt E} | Contributo approssimato della cella allo scarto osservato-atteso. |
| Tabella di contingenza | \displaystyle r_{ij}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}} | Residuo corretto per i marginali. |
| Contributo chi-quadro | \displaystyle \dfrac{(O-E)^2}{E}=r^2 | La statistica somma i quadrati dei residui di Pearson. |
| Interpretazione | \displaystyle \lvert r\rvert\gtrsim2 | Cella che contribuisce in modo rilevante alla statistica. |
Nel test chi-quadro, i residui standardizzati aiutano a capire dove si concentra la deviazione dall’ipotesi nulla, mentre la statistica globale dice solo se la deviazione complessiva è significativa.
Errori comuni
- Confonderlo con il residuo grezzo: il residuo standardizzato include una scala; il residuo ordinario no.
- Ignorare la leva: in regressione la correzione \sqrt{1-h_{ii}} è parte della definizione utile.
- Usare soglie come regole automatiche: valori oltre 2 o 3 indicano punti da indagare, non dati da cancellare.
- Confrontare residui di modelli diversi senza cautela: la scala dipende dal modello, dalle covariate e dalla stima di varianza.
- Dimenticare il segno: il valore assoluto misura grandezza dell’anomalia, il segno indica se il modello sottostima o sovrastima.
Vedi anche: residuo di Pearson, residuo di devianza, matrice hat, leverage score, distanza di Cook, regressione lineare, test chi-quadro, statistica inferenziale.