Residuo di Pearson — ingegnerismo.it

Il residuo di Pearson misura lo scarto tra un valore osservato e il valore atteso dal modello, espresso nella scala della deviazione standard attesa. È una forma di residuo standardizzato, particolarmente usata con conteggi, test chi-quadro, tabelle di contingenza e modelli lineari generalizzati.

Nel caso elementare di un conteggio osservato $O_i$ e di un conteggio atteso $E_i$ , il residuo di Pearson è

r_i= \dfrac{O_i-E_i}{\sqrt{E_i}}.

Il segno indica la direzione dello scarto: $r_i>0$ significa che il conteggio osservato è superiore all’atteso, mentre $r_i<0$ indica un conteggio inferiore all’atteso.

Definizione per conteggi

Oggetto	Formula	Significato
Osservato	$\displaystyle O_i$	Frequenza o conteggio misurato nella cella o categoria.
Atteso	$\displaystyle E_i$	Frequenza prevista sotto il modello o sotto l’ipotesi nulla.
Scarto	$\displaystyle O_i-E_i$	Differenza grezza tra dato e modello.
Scala attesa	$\displaystyle \sqrt{E_i}$	Deviazione standard approssimata del conteggio, se il modello è di tipo Poisson o multinomiale locale.
Residuo di Pearson	$\displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}}$	Scarto osservato-atteso espresso in unità di scala attesa.

Questa normalizzazione evita di confrontare direttamente scarti grezzi che hanno scale diverse. Uno scarto di 10 unità è molto rilevante se l’atteso è 4, ma può essere poco rilevante se l’atteso è 10.000.

Relazione con il chi-quadro

La statistica chi-quadro di Pearson è la somma dei quadrati dei residui di Pearson:

\chi^2 = \sum_i \dfrac{(O_i-E_i)^2}{E_i} = \sum_i r_i^2.

Quindi il test globale risponde alla domanda “lo scarto complessivo è troppo grande?”, mentre i residui indicano quali celle o categorie generano lo scarto.

Quantità	Formula	Lettura
Residuo di Pearson	$\displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}}$	Diagnosi locale della categoria $\displaystyle i$ .
Contributo locale	$\displaystyle r_i^2=\dfrac{(O_i-E_i)^2}{E_i}$	Quota della categoria nella statistica chi-quadro.
Statistica globale	$\displaystyle \chi^2=\sum_i r_i^2$	Misura complessiva dello scostamento dal modello.
Segno del residuo	$\displaystyle \operatorname{sgn}(r_i)$	Direzione dello scarto: eccesso o difetto rispetto all’atteso.

Il quadrato $r_i^2$ perde il segno, ma il residuo $r_i$ conserva l’informazione qualitativa: indica se la cella è sovrarappresentata o sottorappresentata.

Tabelle di contingenza

In una tabella di contingenza, sotto l’ipotesi di indipendenza, il conteggio atteso nella cella $(i,j)$ è

E_{ij} = \dfrac{n_{i\cdot}n_{\cdot j}}{n}.

Il residuo di Pearson della cella è

r_{ij} = \dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}}.

Per confronti più fini si usa spesso un residuo corretto per i marginali:

r_{ij}^{\mathrm{adj}} = \dfrac{O_{ij}-E_{ij}} {\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}.

Residuo	Formula	Uso
Pearson semplice	$\displaystyle r_{ij}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}}$	Misura il contributo grezzo della cella allo scarto.
Pearson quadratico	$\displaystyle r_{ij}^2=\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}$	Contributo della cella alla statistica chi-quadro.
Corretto per marginali	$\displaystyle r_{ij}^{\mathrm{adj}}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}$	Confronto più equo tra celle della tabella.
Soglia descrittiva	$\displaystyle \lvert r_{ij}\rvert\gtrsim2$	Cella da ispezionare con attenzione.

Le soglie sui residui non sostituiscono il test globale. Servono a interpretare la struttura dell’associazione dopo aver stabilito che lo scostamento complessivo è rilevante.

Nei modelli lineari generalizzati

Nei modelli lineari generalizzati, il residuo di Pearson confronta risposta osservata e media stimata usando la varianza prevista dal modello. Se $\widehat\mu_i$ è la media stimata e $V(\widehat\mu_i)$ è la funzione di varianza, una forma comune è

r_i^P = \dfrac{y_i-\widehat\mu_i} {\sqrt{\widehat\phi\,V(\widehat\mu_i)}}.

Il parametro $\widehat\phi$ è il parametro di dispersione stimato, quando previsto dal modello. In regressione di Poisson spesso $\phi=1$ , per cui il denominatore diventa circa $\sqrt{\widehat\mu_i}$ .

Modello	Residuo di Pearson	Nota
Poisson	$\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i}}$	Utile per controllare sovradispersione e celle anomale.
Binomiale	$\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i(1-\widehat\mu_i)}}$	Va adattato alla scala della risposta osservata.
GLM generale	$\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}}$	Usa la funzione di varianza del modello.
Somma dei quadrati	$\displaystyle X_P^2=\sum_i (r_i^P)^2$	Diagnostica globale di adattamento o dispersione.

In questa forma il residuo di Pearson è uno strumento diagnostico: residui molto grandi segnalano osservazioni che il modello non spiega bene nella scala di varianza prevista.

Errori comuni

Confonderlo con il residuo grezzo: $O_i-E_i$ non è ancora un residuo di Pearson; manca la divisione per la scala attesa.
Ignorare il segno: il contributo chi-quadro usa $r_i^2$ , ma il segno di $r_i$ dice se c’è eccesso o difetto.
Usarlo con attesi troppo piccoli senza cautela: se molte frequenze attese sono basse, l’approssimazione chi-quadro può essere fragile.
Interpretare celle isolate senza il contesto della tabella: in tabelle grandi è naturale trovare qualche residuo elevato per caso.
Mescolare residui Pearson e devianza: nei GLM il residuo di devianza è una diagnostica correlata, ma non identica.

Vedi anche: residuo di devianza, sovradispersione, residuo standardizzato, test chi-quadro, tabella di contingenza, modello lineare generalizzato, regressione di Poisson, statistica inferenziale.