Distanza di Cook — ingegnerismo.it

La distanza di Cook misura quanto cambierebbe un modello di regressione lineare se una singola osservazione venisse rimossa dal campione. Non è una misura di errore locale: è una misura di influenza globale sul modello stimato.

In un modello lineare con matrice di progetto $X$ , vettore delle risposte $y$ , $p$ parametri stimati e matrice hat

H=X(X^TX)^{-1}X^T,

la distanza di Cook dell’osservazione $i$ combina il residuo $\widehat\varepsilon_i$ e la leva $h_{ii}=H_{ii}$ :

D_i = \dfrac{\widehat\varepsilon_i^2}{p\,\widehat\sigma^2} \dfrac{h_{ii}}{(1-h_{ii})^2}.

Usando il residuo standardizzato interno

r_i= \dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}},

la stessa quantità si scrive

D_i= \dfrac{r_i^2}{p} \dfrac{h_{ii}}{1-h_{ii}}.

Grandezze coinvolte

Simbolo	Formula	Ruolo diagnostico
Residuo	$\displaystyle \widehat\varepsilon_i=y_i-\widehat y_i$	Misura l’errore verticale dell’osservazione rispetto al modello.
Leva	$\displaystyle h_{ii}=H_{ii}$	Misura quanto l’osservazione è estrema nello spazio delle covariate.
Varianza residua	$\displaystyle \widehat\sigma^2=\dfrac{\operatorname{SSE}}{n-p}$	Scala il residuo rispetto alla dispersione complessiva del modello.
Residuo standardizzato	$\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}$	Corregge il residuo tenendo conto della leva.
Distanza di Cook	$\displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}}$	Riassume l’influenza dell’osservazione sulla stima.

La distanza di Cook diventa grande quando una stessa osservazione ha residuo rilevante e leverage alto. Un residuo grande con leva bassa può essere un outlier verticale, ma non necessariamente sposta molto il modello; una leva alta con residuo piccolo può invece indicare un punto estremo ma coerente con la relazione stimata.

Interpretazione geometrica

La definizione più diretta confronta il modello stimato usando tutti i dati con il modello stimato dopo aver rimosso l’osservazione $i$ . Se $\widehat\beta$ è il vettore dei coefficienti stimato su tutti i dati e $\widehat\beta_{(i)}$ quello stimato senza il punto $i$ , allora

D_i= \dfrac{ (\widehat\beta-\widehat\beta_{(i)})^T X^TX (\widehat\beta-\widehat\beta_{(i)}) }{ p\,\widehat\sigma^2 }.

Questa forma mostra che la distanza di Cook misura lo spostamento dei coefficienti in una metrica naturale per il problema dei minimi quadrati.

Vista	Quantità confrontata	Lettura
Coefficienti	$\displaystyle \widehat\beta-\widehat\beta_{(i)}$	Quanto cambiano i parametri se il punto viene eliminato.
Predizioni	$\displaystyle \widehat y-\widehat y_{(i)}$	Quanto cambia l’intero vettore delle predizioni.
Diagnostica locale	$\displaystyle r_i$ e $\displaystyle h_{ii}$	Quali componenti generano l’influenza.
Diagnostica globale	$\displaystyle D_i$	Quanto l’osservazione pesa sul modello nel suo complesso.

Tavola di lettura

Residuo	Leva	Effetto atteso
Basso	Bassa	Osservazione ordinaria: $\displaystyle D_i$ di solito piccolo.
Alto	Bassa	Outlier verticale: errore locale, influenza spesso limitata.
Basso	Alta	Punto ad alta leva ma allineato al modello.
Alto	Alta	Punto potenzialmente influente: $\displaystyle D_i$ può diventare grande.

Questa tavola è utile perché evita l’errore di leggere la distanza di Cook come una semplice misura di anomalia. Il punto davvero critico non è solo quello strano, ma quello che cambia sensibilmente l’adattamento del modello.

Soglie operative

Le soglie più comuni sono regole pratiche, non test statistici universali. Devono essere usate per ordinare le osservazioni da ispezionare, non per cancellare automaticamente dati.

Criterio	Regola	Uso prudente
Soglia assoluta	$\displaystyle D_i>1$	Segnale forte di influenza in molti contesti applicativi.
Soglia dipendente dal campione	$\displaystyle D_i>\dfrac{4}{n}$	Utile per campioni grandi, più sensibile della soglia assoluta.
Classifica interna	$\displaystyle D_i$ tra i valori maggiori	Priorità di ispezione quando non esiste una soglia netta.
Confronto con leva	$\displaystyle h_{ii}>\dfrac{2p}{n}$	Aiuta a distinguere influenza da semplice errore verticale.

Quando un punto ha distanza di Cook elevata, la domanda corretta non è “lo elimino?”, ma “perché questo punto controlla il modello?”. Può trattarsi di un errore di misura, di un regime fisico diverso, di una covariata mancante o di un’indicazione che il modello lineare è troppo povero.

Procedura diagnostica

Passo	Controllo	Decisione
1	Calcolare $\displaystyle h_{ii}$ e $\displaystyle r_i$	Separare leva e residuo.
2	Calcolare $\displaystyle D_i$	Ordinare i punti per influenza.
3	Confrontare il fit con e senza il punto	Verificare se coefficienti, intervalli e predizioni cambiano.
4	Ispezionare il dato originale	Cercare errori, condizioni sperimentali speciali o covariate mancanti.
5	Documentare la scelta	Motivare eventuale esclusione, trasformazione o modello alternativo.

In applicazioni ingegneristiche, la distanza di Cook è particolarmente utile in calibrazione, prove sperimentali, modelli di risposta e analisi di affidabilità, dove pochi punti estremi possono alterare pendenze, intercette e previsioni operative.

Errori comuni

Usarla come regola automatica di esclusione: un valore alto segnala un punto da indagare, non un dato da cancellare.
Guardare solo il residuo: un punto con residuo grande può non essere influente se ha leverage basso.
Guardare solo la leva: un punto ad alta leva può essere coerente con il modello e quindi avere distanza di Cook contenuta.
Ignorare il dominio fisico: un punto influente può rappresentare un regime reale, non un’anomalia.
Non rifittare il modello: la diagnosi va confermata confrontando coefficienti e predizioni con e senza l’osservazione sospetta.

Vedi anche: residuo standardizzato, matrice hat, regressione lineare, leverage score, minimi quadrati, statistica inferenziale, R quadro.