Matrice hat

Indice dei contenuti

    La matrice hat è la matrice che, nella regressione lineare stimata con i minimi quadrati, trasforma il vettore delle osservazioni y nel vettore dei valori stimati \widehat y. Si chiama “hat” perché mette il cappello sulle osservazioni:

    \widehat y=Hy.

    Se X\in\mathbb R^{n\times p} è la matrice di progetto e ha colonne linearmente indipendenti, la matrice hat è

    H=X(X^TX)^{-1}X^T.

    Quando X non ha rango pieno, la forma coerente con la proiezione ortogonale usa la pseudoinversa:

    H=X(X^TX)^\dagger X^T.

    In entrambi i casi, H è il proiettore ortogonale sullo spazio colonna di X.

    Definizione operativa

    OggettoFormulaSignificato
    Matrice di progetto\displaystyle X\in\mathbb R^{n\times p}Raccoglie intercetta e covariate del modello.
    Matrice hat\displaystyle H=X(X^TX)^{-1}X^TProiettore OLS quando \displaystyle X ha rango pieno.
    Forma con pseudoinversa\displaystyle H=X(X^TX)^\dagger X^TValida anche quando il problema è singolare.
    Predizioni\displaystyle \widehat y=HyValori adattati dal modello lineare.
    Residui\displaystyle \widehat\varepsilon=(I-H)yParte delle osservazioni non spiegata dalla proiezione.

    La matrice hat dipende solo da X, non dai valori osservati y. Cambiare la risposta cambia le predizioni, ma non cambia la geometria con cui il modello proietta i dati.

    Proprietà algebriche

    ProprietàFormulaConseguenza
    Simmetria\displaystyle H^T=HLa proiezione è ortogonale rispetto al prodotto scalare euclideo.
    Idempotenza\displaystyle H^2=HProiettare due volte produce lo stesso risultato.
    Rango\displaystyle \operatorname{rank}(H)=\operatorname{rank}(X)Il numero di direzioni conservate coincide con la dimensione dello spazio colonna.
    Traccia\displaystyle \operatorname{tr}(H)=\operatorname{rank}(X)La somma dei leverage score è il rango del modello.
    Autovalori\displaystyle \lambda\in\{0,1\}Le direzioni interne allo spazio colonna restano, quelle ortogonali vengono annullate.

    Queste proprietà spiegano perché la matrice hat è una matrice di proiezione, non una generica trasformazione lineare. Il modello lineare non cerca una predizione arbitraria: cerca la proiezione di y nello spazio generato dalle colonne di X.

    Predizioni, residui e leverage

    La diagonale della matrice hat contiene i leverage score:

    h_{ii}=H_{ii}.

    Il valore h_{ii} misura quanto l’osservazione i è geometricamente importante per il fit. In un modello con intercetta e rango p, il leverage medio è

    \overline h=\dfrac{p}{n}.
    QuantitàFormulaLettura statistica
    Predizione\displaystyle \widehat y_i=\sum_{j=1}^n H_{ij}y_jOgni valore stimato è una combinazione lineare delle osservazioni.
    Leva\displaystyle h_{ii}=H_{ii}Peso geometrico dell’osservazione \displaystyle i.
    Leva media\displaystyle \overline h=\dfrac{p}{n}Riferimento interno per confrontare i punti.
    Residuo\displaystyle \widehat\varepsilon_i=y_i-\widehat y_iScarto verticale dopo la proiezione.
    Varianza del residuo\displaystyle \operatorname{Var}(\widehat\varepsilon_i)=\sigma^2(1-h_{ii})I punti ad alta leva tendono ad avere residui compressi.

    Un punto ad alta leva non è automaticamente un outlier. Diventa problematico quando la sua posizione estrema si combina con un residuo elevato, come nella distanza di Cook.

    Tavola diagnostica

    Valore di levaIndicazioneAzione consigliata
    \displaystyle h_{ii}\approx\dfrac{p}{n}Punto vicino al comportamento medio del disegno sperimentale.Nessun allarme specifico.
    \displaystyle h_{ii}>\dfrac{2p}{n}Punto con covariate relativamente estreme.Controllare residuo e influenza.
    \displaystyle h_{ii}>\dfrac{3p}{n}Possibile osservazione dominante nel fit.Verificare dati, modello e sensibilità della stima.
    \displaystyle h_{ii}\to1Punto quasi isolato nello spazio delle covariate.Rifittare il modello senza il punto e confrontare i coefficienti.

    Le soglie sono euristiche: servono a ordinare le osservazioni da ispezionare. Non sostituiscono l’analisi del contesto fisico, sperimentale o ingegneristico che ha generato i dati.

    Matrice dei residui

    Alla matrice hat è associata la matrice

    M=I-H,

    che proietta y nello spazio ortogonale ai regressori:

    \widehat\varepsilon=My.
    MatriceFormulaRuolo
    Hat matrix\displaystyle H=X(X^TX)^{-1}X^TProduce le predizioni.
    Residual maker\displaystyle M=I-HProduce i residui.
    Ortogonalità\displaystyle X^T\widehat\varepsilon=0I residui sono ortogonali alle colonne di \displaystyle X.
    Scomposizione\displaystyle y=\widehat y+\widehat\varepsilonSeparazione tra componente spiegata e componente residua.

    Questa lettura geometrica è la base di molte formule della statistica lineare: scomposizione della varianza, test sui coefficienti, diagnostica dei punti influenti e analisi dei residui.

    Errori comuni

    • Pensare che dipenda da y: la matrice hat dipende dalla geometria delle covariate, non dai valori osservati della risposta.
    • Confondere leva e residuo: la diagonale di H misura posizione nello spazio delle covariate, non errore verticale.
    • Usare solo soglie meccaniche: 2p/n e 3p/n sono segnali di attenzione, non regole di esclusione.
    • Ignorare rango e multicollinearità: se X^TX è singolare o mal condizionata, la forma con inversa ordinaria non è appropriata.
    • Dimenticare l’intercetta: la presenza o assenza dell’intercetta cambia lo spazio colonna e quindi cambia H.

    Vedi anche: residuo standardizzato, regressione lineare, minimi quadrati, leverage score, distanza di Cook, pseudoinversa, proiezione ortogonale.

    Pubblicato: