La distanza di Cook misura quanto cambierebbe un modello di regressione lineare se una singola osservazione venisse rimossa dal campione. Non è una misura di errore locale: è una misura di influenza globale sul modello stimato.
In un modello lineare con matrice di progetto X, vettore delle risposte y, p parametri stimati e matrice hat
la distanza di Cook dell’osservazione i combina il residuo \widehat\varepsilon_i e la leva h_{ii}=H_{ii}:
Usando il residuo standardizzato interno
la stessa quantità si scrive
Grandezze coinvolte
| Simbolo | Formula | Ruolo diagnostico |
|---|---|---|
| Residuo | \displaystyle \widehat\varepsilon_i=y_i-\widehat y_i | Misura l’errore verticale dell’osservazione rispetto al modello. |
| Leva | \displaystyle h_{ii}=H_{ii} | Misura quanto l’osservazione è estrema nello spazio delle covariate. |
| Varianza residua | \displaystyle \widehat\sigma^2=\dfrac{\operatorname{SSE}}{n-p} | Scala il residuo rispetto alla dispersione complessiva del modello. |
| Residuo standardizzato | \displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}} | Corregge il residuo tenendo conto della leva. |
| Distanza di Cook | \displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}} | Riassume l’influenza dell’osservazione sulla stima. |
La distanza di Cook diventa grande quando una stessa osservazione ha residuo rilevante e leverage alto. Un residuo grande con leva bassa può essere un outlier verticale, ma non necessariamente sposta molto il modello; una leva alta con residuo piccolo può invece indicare un punto estremo ma coerente con la relazione stimata.
Interpretazione geometrica
La definizione più diretta confronta il modello stimato usando tutti i dati con il modello stimato dopo aver rimosso l’osservazione i. Se \widehat\beta è il vettore dei coefficienti stimato su tutti i dati e \widehat\beta_{(i)} quello stimato senza il punto i, allora
Questa forma mostra che la distanza di Cook misura lo spostamento dei coefficienti in una metrica naturale per il problema dei minimi quadrati.
| Vista | Quantità confrontata | Lettura |
|---|---|---|
| Coefficienti | \displaystyle \widehat\beta-\widehat\beta_{(i)} | Quanto cambiano i parametri se il punto viene eliminato. |
| Predizioni | \displaystyle \widehat y-\widehat y_{(i)} | Quanto cambia l’intero vettore delle predizioni. |
| Diagnostica locale | \displaystyle r_i e \displaystyle h_{ii} | Quali componenti generano l’influenza. |
| Diagnostica globale | \displaystyle D_i | Quanto l’osservazione pesa sul modello nel suo complesso. |
Tavola di lettura
| Residuo | Leva | Effetto atteso |
|---|---|---|
| Basso | Bassa | Osservazione ordinaria: \displaystyle D_i di solito piccolo. |
| Alto | Bassa | Outlier verticale: errore locale, influenza spesso limitata. |
| Basso | Alta | Punto ad alta leva ma allineato al modello. |
| Alto | Alta | Punto potenzialmente influente: \displaystyle D_i può diventare grande. |
Questa tavola è utile perché evita l’errore di leggere la distanza di Cook come una semplice misura di anomalia. Il punto davvero critico non è solo quello strano, ma quello che cambia sensibilmente l’adattamento del modello.
Soglie operative
Le soglie più comuni sono regole pratiche, non test statistici universali. Devono essere usate per ordinare le osservazioni da ispezionare, non per cancellare automaticamente dati.
| Criterio | Regola | Uso prudente |
|---|---|---|
| Soglia assoluta | \displaystyle D_i>1 | Segnale forte di influenza in molti contesti applicativi. |
| Soglia dipendente dal campione | \displaystyle D_i>\dfrac{4}{n} | Utile per campioni grandi, più sensibile della soglia assoluta. |
| Classifica interna | \displaystyle D_i tra i valori maggiori | Priorità di ispezione quando non esiste una soglia netta. |
| Confronto con leva | \displaystyle h_{ii}>\dfrac{2p}{n} | Aiuta a distinguere influenza da semplice errore verticale. |
Quando un punto ha distanza di Cook elevata, la domanda corretta non è “lo elimino?”, ma “perché questo punto controlla il modello?”. Può trattarsi di un errore di misura, di un regime fisico diverso, di una covariata mancante o di un’indicazione che il modello lineare è troppo povero.
Procedura diagnostica
| Passo | Controllo | Decisione |
|---|---|---|
| 1 | Calcolare \displaystyle h_{ii} e \displaystyle r_i | Separare leva e residuo. |
| 2 | Calcolare \displaystyle D_i | Ordinare i punti per influenza. |
| 3 | Confrontare il fit con e senza il punto | Verificare se coefficienti, intervalli e predizioni cambiano. |
| 4 | Ispezionare il dato originale | Cercare errori, condizioni sperimentali speciali o covariate mancanti. |
| 5 | Documentare la scelta | Motivare eventuale esclusione, trasformazione o modello alternativo. |
In applicazioni ingegneristiche, la distanza di Cook è particolarmente utile in calibrazione, prove sperimentali, modelli di risposta e analisi di affidabilità, dove pochi punti estremi possono alterare pendenze, intercette e previsioni operative.
Errori comuni
- Usarla come regola automatica di esclusione: un valore alto segnala un punto da indagare, non un dato da cancellare.
- Guardare solo il residuo: un punto con residuo grande può non essere influente se ha leverage basso.
- Guardare solo la leva: un punto ad alta leva può essere coerente con il modello e quindi avere distanza di Cook contenuta.
- Ignorare il dominio fisico: un punto influente può rappresentare un regime reale, non un’anomalia.
- Non rifittare il modello: la diagnosi va confermata confrontando coefficienti e predizioni con e senza l’osservazione sospetta.
Vedi anche: residuo standardizzato, matrice hat, regressione lineare, leverage score, minimi quadrati, statistica inferenziale, R quadro.