Matrice hat — ingegnerismo.it

La matrice hat è la matrice che, nella regressione lineare stimata con i minimi quadrati, trasforma il vettore delle osservazioni $y$ nel vettore dei valori stimati $\widehat y$ . Si chiama “hat” perché mette il cappello sulle osservazioni:

\widehat y=Hy.

Se $X\in\mathbb R^{n\times p}$ è la matrice di progetto e ha colonne linearmente indipendenti, la matrice hat è

H=X(X^TX)^{-1}X^T.

Quando $X$ non ha rango pieno, la forma coerente con la proiezione ortogonale usa la pseudoinversa:

H=X(X^TX)^\dagger X^T.

In entrambi i casi, $H$ è il proiettore ortogonale sullo spazio colonna di $X$ .

Definizione operativa

Oggetto	Formula	Significato
Matrice di progetto	$\displaystyle X\in\mathbb R^{n\times p}$	Raccoglie intercetta e covariate del modello.
Matrice hat	$\displaystyle H=X(X^TX)^{-1}X^T$	Proiettore OLS quando $\displaystyle X$ ha rango pieno.
Forma con pseudoinversa	$\displaystyle H=X(X^TX)^\dagger X^T$	Valida anche quando il problema è singolare.
Predizioni	$\displaystyle \widehat y=Hy$	Valori adattati dal modello lineare.
Residui	$\displaystyle \widehat\varepsilon=(I-H)y$	Parte delle osservazioni non spiegata dalla proiezione.

La matrice hat dipende solo da $X$ , non dai valori osservati $y$ . Cambiare la risposta cambia le predizioni, ma non cambia la geometria con cui il modello proietta i dati.

Proprietà algebriche

Proprietà	Formula	Conseguenza
Simmetria	$\displaystyle H^T=H$	La proiezione è ortogonale rispetto al prodotto scalare euclideo.
Idempotenza	$\displaystyle H^2=H$	Proiettare due volte produce lo stesso risultato.
Rango	$\displaystyle \operatorname{rank}(H)=\operatorname{rank}(X)$	Il numero di direzioni conservate coincide con la dimensione dello spazio colonna.
Traccia	$\displaystyle \operatorname{tr}(H)=\operatorname{rank}(X)$	La somma dei leverage score è il rango del modello.
Autovalori	$\displaystyle \lambda\in\{0,1\}$	Le direzioni interne allo spazio colonna restano, quelle ortogonali vengono annullate.

Queste proprietà spiegano perché la matrice hat è una matrice di proiezione, non una generica trasformazione lineare. Il modello lineare non cerca una predizione arbitraria: cerca la proiezione di $y$ nello spazio generato dalle colonne di $X$ .

Predizioni, residui e leverage

La diagonale della matrice hat contiene i leverage score:

h_{ii}=H_{ii}.

Il valore $h_{ii}$ misura quanto l’osservazione $i$ è geometricamente importante per il fit. In un modello con intercetta e rango $p$ , il leverage medio è

\overline h=\dfrac{p}{n}.

Quantità	Formula	Lettura statistica
Predizione	$\displaystyle \widehat y_i=\sum_{j=1}^n H_{ij}y_j$	Ogni valore stimato è una combinazione lineare delle osservazioni.
Leva	$\displaystyle h_{ii}=H_{ii}$	Peso geometrico dell’osservazione $\displaystyle i$ .
Leva media	$\displaystyle \overline h=\dfrac{p}{n}$	Riferimento interno per confrontare i punti.
Residuo	$\displaystyle \widehat\varepsilon_i=y_i-\widehat y_i$	Scarto verticale dopo la proiezione.
Varianza del residuo	$\displaystyle \operatorname{Var}(\widehat\varepsilon_i)=\sigma^2(1-h_{ii})$	I punti ad alta leva tendono ad avere residui compressi.

Un punto ad alta leva non è automaticamente un outlier. Diventa problematico quando la sua posizione estrema si combina con un residuo elevato, come nella distanza di Cook.

Tavola diagnostica

Valore di leva	Indicazione	Azione consigliata
$\displaystyle h_{ii}\approx\dfrac{p}{n}$	Punto vicino al comportamento medio del disegno sperimentale.	Nessun allarme specifico.
$\displaystyle h_{ii}>\dfrac{2p}{n}$	Punto con covariate relativamente estreme.	Controllare residuo e influenza.
$\displaystyle h_{ii}>\dfrac{3p}{n}$	Possibile osservazione dominante nel fit.	Verificare dati, modello e sensibilità della stima.
$\displaystyle h_{ii}\to1$	Punto quasi isolato nello spazio delle covariate.	Rifittare il modello senza il punto e confrontare i coefficienti.

Le soglie sono euristiche: servono a ordinare le osservazioni da ispezionare. Non sostituiscono l’analisi del contesto fisico, sperimentale o ingegneristico che ha generato i dati.

Matrice dei residui

Alla matrice hat è associata la matrice

M=I-H,

che proietta $y$ nello spazio ortogonale ai regressori:

\widehat\varepsilon=My.

Matrice	Formula	Ruolo
Hat matrix	$\displaystyle H=X(X^TX)^{-1}X^T$	Produce le predizioni.
Residual maker	$\displaystyle M=I-H$	Produce i residui.
Ortogonalità	$\displaystyle X^T\widehat\varepsilon=0$	I residui sono ortogonali alle colonne di $\displaystyle X$ .
Scomposizione	$\displaystyle y=\widehat y+\widehat\varepsilon$	Separazione tra componente spiegata e componente residua.

Questa lettura geometrica è la base di molte formule della statistica lineare: scomposizione della varianza, test sui coefficienti, diagnostica dei punti influenti e analisi dei residui.

Errori comuni

Pensare che dipenda da $y$ : la matrice hat dipende dalla geometria delle covariate, non dai valori osservati della risposta.
Confondere leva e residuo: la diagonale di $H$ misura posizione nello spazio delle covariate, non errore verticale.
Usare solo soglie meccaniche: $2p/n$ e $3p/n$ sono segnali di attenzione, non regole di esclusione.
Ignorare rango e multicollinearità: se $X^TX$ è singolare o mal condizionata, la forma con inversa ordinaria non è appropriata.
Dimenticare l’intercetta: la presenza o assenza dell’intercetta cambia lo spazio colonna e quindi cambia $H$ .

Vedi anche: residuo standardizzato, regressione lineare, minimi quadrati, leverage score, distanza di Cook, pseudoinversa, proiezione ortogonale.