La matrice hat è la matrice che, nella regressione lineare stimata con i minimi quadrati, trasforma il vettore delle osservazioni y nel vettore dei valori stimati \widehat y. Si chiama “hat” perché mette il cappello sulle osservazioni:
Se X\in\mathbb R^{n\times p} è la matrice di progetto e ha colonne linearmente indipendenti, la matrice hat è
Quando X non ha rango pieno, la forma coerente con la proiezione ortogonale usa la pseudoinversa:
In entrambi i casi, H è il proiettore ortogonale sullo spazio colonna di X.
Definizione operativa
| Oggetto | Formula | Significato |
|---|---|---|
| Matrice di progetto | \displaystyle X\in\mathbb R^{n\times p} | Raccoglie intercetta e covariate del modello. |
| Matrice hat | \displaystyle H=X(X^TX)^{-1}X^T | Proiettore OLS quando \displaystyle X ha rango pieno. |
| Forma con pseudoinversa | \displaystyle H=X(X^TX)^\dagger X^T | Valida anche quando il problema è singolare. |
| Predizioni | \displaystyle \widehat y=Hy | Valori adattati dal modello lineare. |
| Residui | \displaystyle \widehat\varepsilon=(I-H)y | Parte delle osservazioni non spiegata dalla proiezione. |
La matrice hat dipende solo da X, non dai valori osservati y. Cambiare la risposta cambia le predizioni, ma non cambia la geometria con cui il modello proietta i dati.
Proprietà algebriche
| Proprietà | Formula | Conseguenza |
|---|---|---|
| Simmetria | \displaystyle H^T=H | La proiezione è ortogonale rispetto al prodotto scalare euclideo. |
| Idempotenza | \displaystyle H^2=H | Proiettare due volte produce lo stesso risultato. |
| Rango | \displaystyle \operatorname{rank}(H)=\operatorname{rank}(X) | Il numero di direzioni conservate coincide con la dimensione dello spazio colonna. |
| Traccia | \displaystyle \operatorname{tr}(H)=\operatorname{rank}(X) | La somma dei leverage score è il rango del modello. |
| Autovalori | \displaystyle \lambda\in\{0,1\} | Le direzioni interne allo spazio colonna restano, quelle ortogonali vengono annullate. |
Queste proprietà spiegano perché la matrice hat è una matrice di proiezione, non una generica trasformazione lineare. Il modello lineare non cerca una predizione arbitraria: cerca la proiezione di y nello spazio generato dalle colonne di X.
Predizioni, residui e leverage
La diagonale della matrice hat contiene i leverage score:
Il valore h_{ii} misura quanto l’osservazione i è geometricamente importante per il fit. In un modello con intercetta e rango p, il leverage medio è
| Quantità | Formula | Lettura statistica |
|---|---|---|
| Predizione | \displaystyle \widehat y_i=\sum_{j=1}^n H_{ij}y_j | Ogni valore stimato è una combinazione lineare delle osservazioni. |
| Leva | \displaystyle h_{ii}=H_{ii} | Peso geometrico dell’osservazione \displaystyle i. |
| Leva media | \displaystyle \overline h=\dfrac{p}{n} | Riferimento interno per confrontare i punti. |
| Residuo | \displaystyle \widehat\varepsilon_i=y_i-\widehat y_i | Scarto verticale dopo la proiezione. |
| Varianza del residuo | \displaystyle \operatorname{Var}(\widehat\varepsilon_i)=\sigma^2(1-h_{ii}) | I punti ad alta leva tendono ad avere residui compressi. |
Un punto ad alta leva non è automaticamente un outlier. Diventa problematico quando la sua posizione estrema si combina con un residuo elevato, come nella distanza di Cook.
Tavola diagnostica
| Valore di leva | Indicazione | Azione consigliata |
|---|---|---|
| \displaystyle h_{ii}\approx\dfrac{p}{n} | Punto vicino al comportamento medio del disegno sperimentale. | Nessun allarme specifico. |
| \displaystyle h_{ii}>\dfrac{2p}{n} | Punto con covariate relativamente estreme. | Controllare residuo e influenza. |
| \displaystyle h_{ii}>\dfrac{3p}{n} | Possibile osservazione dominante nel fit. | Verificare dati, modello e sensibilità della stima. |
| \displaystyle h_{ii}\to1 | Punto quasi isolato nello spazio delle covariate. | Rifittare il modello senza il punto e confrontare i coefficienti. |
Le soglie sono euristiche: servono a ordinare le osservazioni da ispezionare. Non sostituiscono l’analisi del contesto fisico, sperimentale o ingegneristico che ha generato i dati.
Matrice dei residui
Alla matrice hat è associata la matrice
che proietta y nello spazio ortogonale ai regressori:
| Matrice | Formula | Ruolo |
|---|---|---|
| Hat matrix | \displaystyle H=X(X^TX)^{-1}X^T | Produce le predizioni. |
| Residual maker | \displaystyle M=I-H | Produce i residui. |
| Ortogonalità | \displaystyle X^T\widehat\varepsilon=0 | I residui sono ortogonali alle colonne di \displaystyle X. |
| Scomposizione | \displaystyle y=\widehat y+\widehat\varepsilon | Separazione tra componente spiegata e componente residua. |
Questa lettura geometrica è la base di molte formule della statistica lineare: scomposizione della varianza, test sui coefficienti, diagnostica dei punti influenti e analisi dei residui.
Errori comuni
- Pensare che dipenda da y: la matrice hat dipende dalla geometria delle covariate, non dai valori osservati della risposta.
- Confondere leva e residuo: la diagonale di H misura posizione nello spazio delle covariate, non errore verticale.
- Usare solo soglie meccaniche: 2p/n e 3p/n sono segnali di attenzione, non regole di esclusione.
- Ignorare rango e multicollinearità: se X^TX è singolare o mal condizionata, la forma con inversa ordinaria non è appropriata.
- Dimenticare l’intercetta: la presenza o assenza dell’intercetta cambia lo spazio colonna e quindi cambia H.
Vedi anche: residuo standardizzato, regressione lineare, minimi quadrati, leverage score, distanza di Cook, pseudoinversa, proiezione ortogonale.