Leverage score — ingegnerismo.it

Il leverage score misura quanto una riga di una matrice contribuisce alla geometria dello spazio colonna. In regressione lineare indica quanto un’osservazione è lontana, nello spazio delle covariate, dal centro della nuvola dei dati; in algebra lineare randomizzata indica quali righe o punti sono più importanti per preservare rango, proiezioni e approssimazioni.

Se $A\in\mathbb R^{n\times p}$ ha righe $a_i^T$ , la matrice di proiezione ortogonale sullo spazio colonna di $A$ è

P_A=A(A^TA)^\dagger A^T.

Il leverage score della riga $i$ è la diagonale di questa proiezione:

h_i=(P_A)_{ii} = a_i^T(A^TA)^\dagger a_i.

Definizione matriciale

Oggetto	Formula	Significato
Matrice dei dati	$\displaystyle A\in\mathbb R^{n\times p}$	Righe osservazioni, colonne variabili o feature.
Proiettore	$\displaystyle P_A=A(A^TA)^\dagger A^T$	Proietta su $\displaystyle \operatorname{col}(A)$ .
Leverage score	$\displaystyle h_i=(P_A)_{ii}$	Peso geometrico della riga $\displaystyle i$ .
Forma per riga	$\displaystyle h_i=a_i^T(A^TA)^\dagger a_i$	Calcolo diretto dalla riga $\displaystyle a_i^T$ .
Somma	$\displaystyle \sum_{i=1}^n h_i=\operatorname{rank}(A)$	La massa totale coincide con il rango.
Intervallo	$\displaystyle 0\le h_i\le1$	Nessuna riga può pesare più di una direzione intera.

Il leverage score non misura il valore della risposta $y_i$ : misura la posizione della riga $a_i$ rispetto allo spazio generato dalle colonne della matrice.

Lettura tramite QR

Se $A$ ha rango $r$ e

A=QR

è una fattorizzazione QR sottile, con $Q\in\mathbb R^{n\times r}$ a colonne ortonormali, allora

P_A=QQ^T

e il leverage score diventa

h_i=\lVert q_i\rVert_2^2,

dove $q_i^T$ è la riga $i$ di $Q$ . Questa forma mostra che i leverage score dipendono solo dal sottospazio colonna, non dalla particolare base usata per descriverlo.

Rappresentazione	Formula	Uso
Proiettore	$\displaystyle h_i=(P_A)_{ii}$	Definizione geometrica.
QR sottile	$\displaystyle h_i=\lVert q_i\rVert_2^2$	Calcolo stabile e interpretazione per righe.
SVD sottile	$\displaystyle h_i=\lVert u_i\rVert_2^2$	Lettura tramite autovettori sinistri dominanti.
Probabilità di campionamento	$\displaystyle p_i=\dfrac{h_i}{r}$	Campionamento proporzionale all’importanza geometrica.

Regressione lineare

Nella regressione lineare, con matrice di progetto $X$ , la matrice

H=X(X^TX)^{-1}X^T

è detta spesso matrice hat, perché trasforma le osservazioni in valori stimati:

\widehat y=Hy.

La leva dell’osservazione $i$ è

h_{ii}=H_{ii}.

Un valore alto di $h_{ii}$ significa che il punto ha covariate insolite rispetto agli altri punti. Questo non basta per dire che il punto sia influente: serve anche guardare il residuo.

Diagnostica	Formula	Che cosa misura
Leva	$\displaystyle h_{ii}$	Posizione estrema nello spazio delle covariate.
Residuo	$\displaystyle \widehat\varepsilon_i=y_i-\widehat y_i$	Errore verticale del modello.
Residuo standardizzato	$\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}$	Errore corretto per la leva.
Influenza	$\displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}}$	Effetto congiunto di leva e residuo, come nella distanza di Cook.

Un punto con leva alta ma residuo piccolo può essere coerente con il modello. Un punto con leva alta e residuo grande può invece modificare sensibilmente coefficienti, predizioni e inferenza.

Campionamento e approssimazioni

In algebra lineare numerica, i leverage score servono a campionare righe, colonne o landmark in modo informativo. L’idea è semplice: se una riga ha leverage score alto, rimuoverla o sottocampionarla male può alterare molto lo spazio colonna.

Problema	Uso dei leverage score	Obiettivo
Minimi quadrati grandi	Campionare righe con probabilità $\displaystyle p_i\propto h_i$	Risolvere un problema più piccolo preservando la soluzione.
Approssimazione a rango basso	Campionare righe o colonne informative	Conservare il sottospazio dominante.
Metodo di Nyström	Scegliere landmark con alta importanza spettrale	Approssimare meglio la matrice kernel.
Diagnostica statistica	Individuare osservazioni geometricamente estreme	Separare leva, residuo e influenza.

Nel metodo di Nyström, il campionamento uniforme dei landmark può trascurare regioni geometricamente importanti. Campionare in base a leverage score, o a loro approssimazioni, cerca invece di preservare le direzioni dominanti della matrice di Gram.

Kernel leverage score

Nei metodi kernel si lavora con una matrice $K\in\mathbb R^{n\times n}$ semidefinita positiva. Una versione regolarizzata del leverage score è

\ell_i^\lambda = \left[ K(K+\lambda I)^{-1} \right]_{ii}.

Il parametro $\lambda>0$ attenua le direzioni poco stabili e rende il punteggio più adatto al campionamento numerico. In approssimazioni kernel, questi punteggi aiutano a scegliere landmark più informativi rispetto al campionamento uniforme.

Variante	Formula	Contesto
Leverage lineare	$\displaystyle h_i=(P_A)_{ii}$	Righe di una matrice o regressione lineare.
Leverage QR	$\displaystyle h_i=\lVert q_i\rVert_2^2$	Sottospazio colonna esplicito.
Kernel leverage	$\displaystyle \ell_i^\lambda=\left[K(K+\lambda I)^{-1}\right]_{ii}$	Campionamento in metodi kernel regolarizzati.
Landmark score	$\displaystyle p_i\propto \ell_i^\lambda$	Selezione probabilistica di punti rappresentativi.

Errori comuni

Confondere leva e outlier nella risposta: una leva alta riguarda le covariate, non necessariamente il valore osservato di $y$ .
Chiamare influente ogni punto ad alta leva: l’influenza richiede anche un residuo rilevante.
Usare solo soglie meccaniche: regole come $h_{ii}>2p/n$ sono allarmi, non prove definitive.
Ignorare la scala delle variabili: in regressione e metodi kernel, standardizzazione e preprocessing cambiano la geometria.
Campionare sempre uniformemente: in matrici con leverage molto sbilanciati, il campionamento uniforme può perdere direzioni essenziali.

Vedi anche: residuo standardizzato, matrice hat, distanza di Cook, metodo di Nyström, minimi quadrati, regressione lineare, matrice di Gram, pseudoinversa, proiezione ortogonale, decomposizione SVD.