Residuo standardizzato — ingegnerismo.it

Il residuo standardizzato è un residuo diviso per una stima della sua deviazione standard. Serve a rendere confrontabili errori che, a parità di modello, possono avere varianze diverse. In regressione lineare è uno degli strumenti principali per diagnosticare osservazioni anomale, punti influenti e violazioni delle ipotesi del modello.

Se $\widehat\varepsilon_i=y_i-\widehat y_i$ è il residuo ordinario, l’idea generale è

r_i= \dfrac{\widehat\varepsilon_i}{\widehat{\operatorname{sd}}(\widehat\varepsilon_i)}.

Un residuo standardizzato non dice solo “quanto è grande lo scarto”, ma “quanto è grande lo scarto rispetto alla variabilità attesa per quell’osservazione”.

Definizione in regressione lineare

Nel modello lineare stimato con minimi quadrati, la matrice hat

H=X(X^TX)^{-1}X^T

produce le predizioni $\widehat y=Hy$ . La diagonale $h_{ii}=H_{ii}$ misura la leva dell’osservazione, cioè il suo leverage score. Per questo la varianza del residuo non è identica per tutti i punti:

\operatorname{Var}(\widehat\varepsilon_i)=\sigma^2(1-h_{ii}).

Il residuo standardizzato interno è quindi

r_i= \dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}.

Grandezze coinvolte

Oggetto	Formula	Significato
Residuo ordinario	$\displaystyle \widehat\varepsilon_i=y_i-\widehat y_i$	Scarto verticale tra dato e predizione.
Leva	$\displaystyle h_{ii}=H_{ii}$	Peso geometrico dell’osservazione nel fit.
Varianza residua stimata	$\displaystyle \widehat\sigma^2=\dfrac{\operatorname{SSE}}{n-p}$	Scala globale degli errori del modello.
Deviazione standard del residuo	$\displaystyle \widehat\sigma\sqrt{1-h_{ii}}$	Scala locale del residuo dell’osservazione $\displaystyle i$ .
Residuo standardizzato	$\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}$	Residuo espresso in unità di deviazione standard.

Il fattore $\sqrt{1-h_{ii}}$ è essenziale: i punti ad alta leva tendono ad avere residui ordinari artificialmente compressi. Standardizzare senza correggere per la leva può far apparire innocuo un punto che controlla molto il modello.

Residui interni ed esterni

In diagnostica della regressione lineare si distinguono spesso residui standardizzati interni e residui studentizzati esterni. La differenza è nella stima della varianza usata al denominatore.

Tipo	Formula	Uso
Ordinario	$\displaystyle \widehat\varepsilon_i=y_i-\widehat y_i$	Misura lo scarto grezzo.
Standardizzato interno	$\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}$	Diagnostica rapida dei residui.
Studentizzato esterno	$\displaystyle t_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma_{(i)}\sqrt{1-h_{ii}}}$	Usa la varianza stimata eliminando l’osservazione $\displaystyle i$ .
Regola indicativa	$\displaystyle \lvert r_i\rvert>2$	Punto da ispezionare, non da eliminare automaticamente.
Allarme forte	$\displaystyle \lvert r_i\rvert>3$	Possibile outlier rispetto al modello.

Il residuo studentizzato esterno è più severo quando l’osservazione sospetta altera molto la stima della varianza residua. Per campioni piccoli è spesso preferibile al residuo standardizzato interno.

Lettura diagnostica

Residuo standardizzato	Leva	Interpretazione
Piccolo	Bassa	Punto ordinario.
Grande	Bassa	Possibile outlier verticale.
Piccolo	Alta	Punto estremo ma allineato al modello.
Grande	Alta	Punto potenzialmente influente; controllare la distanza di Cook.

Il residuo standardizzato individua errori verticali anomali; il leverage score individua punti geometricamente estremi; la distanza di Cook combina entrambe le informazioni. Le tre quantità vanno lette insieme.

Uso nel test chi-quadro

Nei conteggi e nelle tabelle di contingenza si usa spesso il residuo di Pearson, cioè lo scarto tra frequenza osservata e frequenza attesa diviso per la scala attesa:

r= \dfrac{O-E}{\sqrt E}.

Per tabelle a due vie, una correzione più accurata tiene conto dei marginali di riga e colonna:

r_{ij}= \dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}.

Contesto	Formula	Lettura
Cella singola	$\displaystyle r=\dfrac{O-E}{\sqrt E}$	Contributo approssimato della cella allo scarto osservato-atteso.
Tabella di contingenza	$\displaystyle r_{ij}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}$	Residuo corretto per i marginali.
Contributo chi-quadro	$\displaystyle \dfrac{(O-E)^2}{E}=r^2$	La statistica somma i quadrati dei residui di Pearson.
Interpretazione	$\displaystyle \lvert r\rvert\gtrsim2$	Cella che contribuisce in modo rilevante alla statistica.

Nel test chi-quadro, i residui standardizzati aiutano a capire dove si concentra la deviazione dall’ipotesi nulla, mentre la statistica globale dice solo se la deviazione complessiva è significativa.

Errori comuni

Confonderlo con il residuo grezzo: il residuo standardizzato include una scala; il residuo ordinario no.
Ignorare la leva: in regressione la correzione $\sqrt{1-h_{ii}}$ è parte della definizione utile.
Usare soglie come regole automatiche: valori oltre 2 o 3 indicano punti da indagare, non dati da cancellare.
Confrontare residui di modelli diversi senza cautela: la scala dipende dal modello, dalle covariate e dalla stima di varianza.
Dimenticare il segno: il valore assoluto misura grandezza dell’anomalia, il segno indica se il modello sottostima o sovrastima.

Vedi anche: residuo di Pearson, residuo di devianza, matrice hat, leverage score, distanza di Cook, regressione lineare, test chi-quadro, statistica inferenziale.