Distanza di Cook

Indice dei contenuti

    La distanza di Cook misura quanto cambierebbe un modello di regressione lineare se una singola osservazione venisse rimossa dal campione. Non è una misura di errore locale: è una misura di influenza globale sul modello stimato.

    In un modello lineare con matrice di progetto X, vettore delle risposte y, p parametri stimati e matrice hat

    H=X(X^TX)^{-1}X^T,

    la distanza di Cook dell’osservazione i combina il residuo \widehat\varepsilon_i e la leva h_{ii}=H_{ii}:

    D_i = \dfrac{\widehat\varepsilon_i^2}{p\,\widehat\sigma^2} \dfrac{h_{ii}}{(1-h_{ii})^2}.

    Usando il residuo standardizzato interno

    r_i= \dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}},

    la stessa quantità si scrive

    D_i= \dfrac{r_i^2}{p} \dfrac{h_{ii}}{1-h_{ii}}.

    Grandezze coinvolte

    SimboloFormulaRuolo diagnostico
    Residuo\displaystyle \widehat\varepsilon_i=y_i-\widehat y_iMisura l’errore verticale dell’osservazione rispetto al modello.
    Leva\displaystyle h_{ii}=H_{ii}Misura quanto l’osservazione è estrema nello spazio delle covariate.
    Varianza residua\displaystyle \widehat\sigma^2=\dfrac{\operatorname{SSE}}{n-p}Scala il residuo rispetto alla dispersione complessiva del modello.
    Residuo standardizzato\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}Corregge il residuo tenendo conto della leva.
    Distanza di Cook\displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}}Riassume l’influenza dell’osservazione sulla stima.

    La distanza di Cook diventa grande quando una stessa osservazione ha residuo rilevante e leverage alto. Un residuo grande con leva bassa può essere un outlier verticale, ma non necessariamente sposta molto il modello; una leva alta con residuo piccolo può invece indicare un punto estremo ma coerente con la relazione stimata.

    Interpretazione geometrica

    La definizione più diretta confronta il modello stimato usando tutti i dati con il modello stimato dopo aver rimosso l’osservazione i. Se \widehat\beta è il vettore dei coefficienti stimato su tutti i dati e \widehat\beta_{(i)} quello stimato senza il punto i, allora

    D_i= \dfrac{ (\widehat\beta-\widehat\beta_{(i)})^T X^TX (\widehat\beta-\widehat\beta_{(i)}) }{ p\,\widehat\sigma^2 }.

    Questa forma mostra che la distanza di Cook misura lo spostamento dei coefficienti in una metrica naturale per il problema dei minimi quadrati.

    VistaQuantità confrontataLettura
    Coefficienti\displaystyle \widehat\beta-\widehat\beta_{(i)}Quanto cambiano i parametri se il punto viene eliminato.
    Predizioni\displaystyle \widehat y-\widehat y_{(i)}Quanto cambia l’intero vettore delle predizioni.
    Diagnostica locale\displaystyle r_i e \displaystyle h_{ii}Quali componenti generano l’influenza.
    Diagnostica globale\displaystyle D_iQuanto l’osservazione pesa sul modello nel suo complesso.

    Tavola di lettura

    ResiduoLevaEffetto atteso
    BassoBassaOsservazione ordinaria: \displaystyle D_i di solito piccolo.
    AltoBassaOutlier verticale: errore locale, influenza spesso limitata.
    BassoAltaPunto ad alta leva ma allineato al modello.
    AltoAltaPunto potenzialmente influente: \displaystyle D_i può diventare grande.

    Questa tavola è utile perché evita l’errore di leggere la distanza di Cook come una semplice misura di anomalia. Il punto davvero critico non è solo quello strano, ma quello che cambia sensibilmente l’adattamento del modello.

    Soglie operative

    Le soglie più comuni sono regole pratiche, non test statistici universali. Devono essere usate per ordinare le osservazioni da ispezionare, non per cancellare automaticamente dati.

    CriterioRegolaUso prudente
    Soglia assoluta\displaystyle D_i>1Segnale forte di influenza in molti contesti applicativi.
    Soglia dipendente dal campione\displaystyle D_i>\dfrac{4}{n}Utile per campioni grandi, più sensibile della soglia assoluta.
    Classifica interna\displaystyle D_i tra i valori maggioriPriorità di ispezione quando non esiste una soglia netta.
    Confronto con leva\displaystyle h_{ii}>\dfrac{2p}{n}Aiuta a distinguere influenza da semplice errore verticale.

    Quando un punto ha distanza di Cook elevata, la domanda corretta non è “lo elimino?”, ma “perché questo punto controlla il modello?”. Può trattarsi di un errore di misura, di un regime fisico diverso, di una covariata mancante o di un’indicazione che il modello lineare è troppo povero.

    Procedura diagnostica

    PassoControlloDecisione
    1Calcolare \displaystyle h_{ii} e \displaystyle r_iSeparare leva e residuo.
    2Calcolare \displaystyle D_iOrdinare i punti per influenza.
    3Confrontare il fit con e senza il puntoVerificare se coefficienti, intervalli e predizioni cambiano.
    4Ispezionare il dato originaleCercare errori, condizioni sperimentali speciali o covariate mancanti.
    5Documentare la sceltaMotivare eventuale esclusione, trasformazione o modello alternativo.

    In applicazioni ingegneristiche, la distanza di Cook è particolarmente utile in calibrazione, prove sperimentali, modelli di risposta e analisi di affidabilità, dove pochi punti estremi possono alterare pendenze, intercette e previsioni operative.

    Errori comuni

    • Usarla come regola automatica di esclusione: un valore alto segnala un punto da indagare, non un dato da cancellare.
    • Guardare solo il residuo: un punto con residuo grande può non essere influente se ha leverage basso.
    • Guardare solo la leva: un punto ad alta leva può essere coerente con il modello e quindi avere distanza di Cook contenuta.
    • Ignorare il dominio fisico: un punto influente può rappresentare un regime reale, non un’anomalia.
    • Non rifittare il modello: la diagnosi va confermata confrontando coefficienti e predizioni con e senza l’osservazione sospetta.

    Vedi anche: residuo standardizzato, matrice hat, regressione lineare, leverage score, minimi quadrati, statistica inferenziale, R quadro.

    Pubblicato: