Il residuo di Pearson misura lo scarto tra un valore osservato e il valore atteso dal modello, espresso nella scala della deviazione standard attesa. È una forma di residuo standardizzato, particolarmente usata con conteggi, test chi-quadro, tabelle di contingenza e modelli lineari generalizzati.
Nel caso elementare di un conteggio osservato O_i e di un conteggio atteso E_i, il residuo di Pearson è
Il segno indica la direzione dello scarto: r_i>0 significa che il conteggio osservato è superiore all’atteso, mentre r_i<0 indica un conteggio inferiore all’atteso.
Definizione per conteggi
| Oggetto | Formula | Significato |
|---|---|---|
| Osservato | \displaystyle O_i | Frequenza o conteggio misurato nella cella o categoria. |
| Atteso | \displaystyle E_i | Frequenza prevista sotto il modello o sotto l’ipotesi nulla. |
| Scarto | \displaystyle O_i-E_i | Differenza grezza tra dato e modello. |
| Scala attesa | \displaystyle \sqrt{E_i} | Deviazione standard approssimata del conteggio, se il modello è di tipo Poisson o multinomiale locale. |
| Residuo di Pearson | \displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}} | Scarto osservato-atteso espresso in unità di scala attesa. |
Questa normalizzazione evita di confrontare direttamente scarti grezzi che hanno scale diverse. Uno scarto di 10 unità è molto rilevante se l’atteso è 4, ma può essere poco rilevante se l’atteso è 10.000.
Relazione con il chi-quadro
La statistica chi-quadro di Pearson è la somma dei quadrati dei residui di Pearson:
Quindi il test globale risponde alla domanda “lo scarto complessivo è troppo grande?”, mentre i residui indicano quali celle o categorie generano lo scarto.
| Quantità | Formula | Lettura |
|---|---|---|
| Residuo di Pearson | \displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}} | Diagnosi locale della categoria \displaystyle i. |
| Contributo locale | \displaystyle r_i^2=\dfrac{(O_i-E_i)^2}{E_i} | Quota della categoria nella statistica chi-quadro. |
| Statistica globale | \displaystyle \chi^2=\sum_i r_i^2 | Misura complessiva dello scostamento dal modello. |
| Segno del residuo | \displaystyle \operatorname{sgn}(r_i) | Direzione dello scarto: eccesso o difetto rispetto all’atteso. |
Il quadrato r_i^2 perde il segno, ma il residuo r_i conserva l’informazione qualitativa: indica se la cella è sovrarappresentata o sottorappresentata.
Tabelle di contingenza
In una tabella di contingenza, sotto l’ipotesi di indipendenza, il conteggio atteso nella cella (i,j) è
Il residuo di Pearson della cella è
Per confronti più fini si usa spesso un residuo corretto per i marginali:
| Residuo | Formula | Uso |
|---|---|---|
| Pearson semplice | \displaystyle r_{ij}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}} | Misura il contributo grezzo della cella allo scarto. |
| Pearson quadratico | \displaystyle r_{ij}^2=\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}} | Contributo della cella alla statistica chi-quadro. |
| Corretto per marginali | \displaystyle r_{ij}^{\mathrm{adj}}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}} | Confronto più equo tra celle della tabella. |
| Soglia descrittiva | \displaystyle \lvert r_{ij}\rvert\gtrsim2 | Cella da ispezionare con attenzione. |
Le soglie sui residui non sostituiscono il test globale. Servono a interpretare la struttura dell’associazione dopo aver stabilito che lo scostamento complessivo è rilevante.
Nei modelli lineari generalizzati
Nei modelli lineari generalizzati, il residuo di Pearson confronta risposta osservata e media stimata usando la varianza prevista dal modello. Se \widehat\mu_i è la media stimata e V(\widehat\mu_i) è la funzione di varianza, una forma comune è
Il parametro \widehat\phi è il parametro di dispersione stimato, quando previsto dal modello. In regressione di Poisson spesso \phi=1, per cui il denominatore diventa circa \sqrt{\widehat\mu_i}.
| Modello | Residuo di Pearson | Nota |
|---|---|---|
| Poisson | \displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i}} | Utile per controllare sovradispersione e celle anomale. |
| Binomiale | \displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i(1-\widehat\mu_i)}} | Va adattato alla scala della risposta osservata. |
| GLM generale | \displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}} | Usa la funzione di varianza del modello. |
| Somma dei quadrati | \displaystyle X_P^2=\sum_i (r_i^P)^2 | Diagnostica globale di adattamento o dispersione. |
In questa forma il residuo di Pearson è uno strumento diagnostico: residui molto grandi segnalano osservazioni che il modello non spiega bene nella scala di varianza prevista.
Errori comuni
- Confonderlo con il residuo grezzo: O_i-E_i non è ancora un residuo di Pearson; manca la divisione per la scala attesa.
- Ignorare il segno: il contributo chi-quadro usa r_i^2, ma il segno di r_i dice se c’è eccesso o difetto.
- Usarlo con attesi troppo piccoli senza cautela: se molte frequenze attese sono basse, l’approssimazione chi-quadro può essere fragile.
- Interpretare celle isolate senza il contesto della tabella: in tabelle grandi è naturale trovare qualche residuo elevato per caso.
- Mescolare residui Pearson e devianza: nei GLM il residuo di devianza è una diagnostica correlata, ma non identica.
Vedi anche: residuo di devianza, sovradispersione, residuo standardizzato, test chi-quadro, tabella di contingenza, modello lineare generalizzato, regressione di Poisson, statistica inferenziale.