Residuo di Pearson

Indice dei contenuti

    Il residuo di Pearson misura lo scarto tra un valore osservato e il valore atteso dal modello, espresso nella scala della deviazione standard attesa. È una forma di residuo standardizzato, particolarmente usata con conteggi, test chi-quadro, tabelle di contingenza e modelli lineari generalizzati.

    Nel caso elementare di un conteggio osservato O_i e di un conteggio atteso E_i, il residuo di Pearson è

    r_i= \dfrac{O_i-E_i}{\sqrt{E_i}}.

    Il segno indica la direzione dello scarto: r_i>0 significa che il conteggio osservato è superiore all’atteso, mentre r_i<0 indica un conteggio inferiore all’atteso.

    Definizione per conteggi

    OggettoFormulaSignificato
    Osservato\displaystyle O_iFrequenza o conteggio misurato nella cella o categoria.
    Atteso\displaystyle E_iFrequenza prevista sotto il modello o sotto l’ipotesi nulla.
    Scarto\displaystyle O_i-E_iDifferenza grezza tra dato e modello.
    Scala attesa\displaystyle \sqrt{E_i}Deviazione standard approssimata del conteggio, se il modello è di tipo Poisson o multinomiale locale.
    Residuo di Pearson\displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}}Scarto osservato-atteso espresso in unità di scala attesa.

    Questa normalizzazione evita di confrontare direttamente scarti grezzi che hanno scale diverse. Uno scarto di 10 unità è molto rilevante se l’atteso è 4, ma può essere poco rilevante se l’atteso è 10.000.

    Relazione con il chi-quadro

    La statistica chi-quadro di Pearson è la somma dei quadrati dei residui di Pearson:

    \chi^2 = \sum_i \dfrac{(O_i-E_i)^2}{E_i} = \sum_i r_i^2.

    Quindi il test globale risponde alla domanda “lo scarto complessivo è troppo grande?”, mentre i residui indicano quali celle o categorie generano lo scarto.

    QuantitàFormulaLettura
    Residuo di Pearson\displaystyle r_i=\dfrac{O_i-E_i}{\sqrt{E_i}}Diagnosi locale della categoria \displaystyle i.
    Contributo locale\displaystyle r_i^2=\dfrac{(O_i-E_i)^2}{E_i}Quota della categoria nella statistica chi-quadro.
    Statistica globale\displaystyle \chi^2=\sum_i r_i^2Misura complessiva dello scostamento dal modello.
    Segno del residuo\displaystyle \operatorname{sgn}(r_i)Direzione dello scarto: eccesso o difetto rispetto all’atteso.

    Il quadrato r_i^2 perde il segno, ma il residuo r_i conserva l’informazione qualitativa: indica se la cella è sovrarappresentata o sottorappresentata.

    Tabelle di contingenza

    In una tabella di contingenza, sotto l’ipotesi di indipendenza, il conteggio atteso nella cella (i,j) è

    E_{ij} = \dfrac{n_{i\cdot}n_{\cdot j}}{n}.

    Il residuo di Pearson della cella è

    r_{ij} = \dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}}.

    Per confronti più fini si usa spesso un residuo corretto per i marginali:

    r_{ij}^{\mathrm{adj}} = \dfrac{O_{ij}-E_{ij}} {\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}.
    ResiduoFormulaUso
    Pearson semplice\displaystyle r_{ij}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}}}Misura il contributo grezzo della cella allo scarto.
    Pearson quadratico\displaystyle r_{ij}^2=\dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}Contributo della cella alla statistica chi-quadro.
    Corretto per marginali\displaystyle r_{ij}^{\mathrm{adj}}=\dfrac{O_{ij}-E_{ij}}{\sqrt{E_{ij}(1-p_{i\cdot})(1-p_{\cdot j})}}Confronto più equo tra celle della tabella.
    Soglia descrittiva\displaystyle \lvert r_{ij}\rvert\gtrsim2Cella da ispezionare con attenzione.

    Le soglie sui residui non sostituiscono il test globale. Servono a interpretare la struttura dell’associazione dopo aver stabilito che lo scostamento complessivo è rilevante.

    Nei modelli lineari generalizzati

    Nei modelli lineari generalizzati, il residuo di Pearson confronta risposta osservata e media stimata usando la varianza prevista dal modello. Se \widehat\mu_i è la media stimata e V(\widehat\mu_i) è la funzione di varianza, una forma comune è

    r_i^P = \dfrac{y_i-\widehat\mu_i} {\sqrt{\widehat\phi\,V(\widehat\mu_i)}}.

    Il parametro \widehat\phi è il parametro di dispersione stimato, quando previsto dal modello. In regressione di Poisson spesso \phi=1, per cui il denominatore diventa circa \sqrt{\widehat\mu_i}.

    ModelloResiduo di PearsonNota
    Poisson\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i}}Utile per controllare sovradispersione e celle anomale.
    Binomiale\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\mu_i(1-\widehat\mu_i)}}Va adattato alla scala della risposta osservata.
    GLM generale\displaystyle r_i^P=\dfrac{y_i-\widehat\mu_i}{\sqrt{\widehat\phi\,V(\widehat\mu_i)}}Usa la funzione di varianza del modello.
    Somma dei quadrati\displaystyle X_P^2=\sum_i (r_i^P)^2Diagnostica globale di adattamento o dispersione.

    In questa forma il residuo di Pearson è uno strumento diagnostico: residui molto grandi segnalano osservazioni che il modello non spiega bene nella scala di varianza prevista.

    Errori comuni

    • Confonderlo con il residuo grezzo: O_i-E_i non è ancora un residuo di Pearson; manca la divisione per la scala attesa.
    • Ignorare il segno: il contributo chi-quadro usa r_i^2, ma il segno di r_i dice se c’è eccesso o difetto.
    • Usarlo con attesi troppo piccoli senza cautela: se molte frequenze attese sono basse, l’approssimazione chi-quadro può essere fragile.
    • Interpretare celle isolate senza il contesto della tabella: in tabelle grandi è naturale trovare qualche residuo elevato per caso.
    • Mescolare residui Pearson e devianza: nei GLM il residuo di devianza è una diagnostica correlata, ma non identica.

    Vedi anche: residuo di devianza, sovradispersione, residuo standardizzato, test chi-quadro, tabella di contingenza, modello lineare generalizzato, regressione di Poisson, statistica inferenziale.

    Pubblicato: