Il leverage score misura quanto una riga di una matrice contribuisce alla geometria dello spazio colonna. In regressione lineare indica quanto un’osservazione è lontana, nello spazio delle covariate, dal centro della nuvola dei dati; in algebra lineare randomizzata indica quali righe o punti sono più importanti per preservare rango, proiezioni e approssimazioni.
Se A\in\mathbb R^{n\times p} ha righe a_i^T, la matrice di proiezione ortogonale sullo spazio colonna di A è
Il leverage score della riga i è la diagonale di questa proiezione:
Definizione matriciale
| Oggetto | Formula | Significato |
|---|---|---|
| Matrice dei dati | \displaystyle A\in\mathbb R^{n\times p} | Righe osservazioni, colonne variabili o feature. |
| Proiettore | \displaystyle P_A=A(A^TA)^\dagger A^T | Proietta su \displaystyle \operatorname{col}(A). |
| Leverage score | \displaystyle h_i=(P_A)_{ii} | Peso geometrico della riga \displaystyle i. |
| Forma per riga | \displaystyle h_i=a_i^T(A^TA)^\dagger a_i | Calcolo diretto dalla riga \displaystyle a_i^T. |
| Somma | \displaystyle \sum_{i=1}^n h_i=\operatorname{rank}(A) | La massa totale coincide con il rango. |
| Intervallo | \displaystyle 0\le h_i\le1 | Nessuna riga può pesare più di una direzione intera. |
Il leverage score non misura il valore della risposta y_i: misura la posizione della riga a_i rispetto allo spazio generato dalle colonne della matrice.
Lettura tramite QR
Se A ha rango r e
è una fattorizzazione QR sottile, con Q\in\mathbb R^{n\times r} a colonne ortonormali, allora
e il leverage score diventa
dove q_i^T è la riga i di Q. Questa forma mostra che i leverage score dipendono solo dal sottospazio colonna, non dalla particolare base usata per descriverlo.
| Rappresentazione | Formula | Uso |
|---|---|---|
| Proiettore | \displaystyle h_i=(P_A)_{ii} | Definizione geometrica. |
| QR sottile | \displaystyle h_i=\lVert q_i\rVert_2^2 | Calcolo stabile e interpretazione per righe. |
| SVD sottile | \displaystyle h_i=\lVert u_i\rVert_2^2 | Lettura tramite autovettori sinistri dominanti. |
| Probabilità di campionamento | \displaystyle p_i=\dfrac{h_i}{r} | Campionamento proporzionale all’importanza geometrica. |
Regressione lineare
Nella regressione lineare, con matrice di progetto X, la matrice
è detta spesso matrice hat, perché trasforma le osservazioni in valori stimati:
La leva dell’osservazione i è
Un valore alto di h_{ii} significa che il punto ha covariate insolite rispetto agli altri punti. Questo non basta per dire che il punto sia influente: serve anche guardare il residuo.
| Diagnostica | Formula | Che cosa misura |
|---|---|---|
| Leva | \displaystyle h_{ii} | Posizione estrema nello spazio delle covariate. |
| Residuo | \displaystyle \widehat\varepsilon_i=y_i-\widehat y_i | Errore verticale del modello. |
| Residuo standardizzato | \displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}} | Errore corretto per la leva. |
| Influenza | \displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}} | Effetto congiunto di leva e residuo, come nella distanza di Cook. |
Un punto con leva alta ma residuo piccolo può essere coerente con il modello. Un punto con leva alta e residuo grande può invece modificare sensibilmente coefficienti, predizioni e inferenza.
Campionamento e approssimazioni
In algebra lineare numerica, i leverage score servono a campionare righe, colonne o landmark in modo informativo. L’idea è semplice: se una riga ha leverage score alto, rimuoverla o sottocampionarla male può alterare molto lo spazio colonna.
| Problema | Uso dei leverage score | Obiettivo |
|---|---|---|
| Minimi quadrati grandi | Campionare righe con probabilità \displaystyle p_i\propto h_i | Risolvere un problema più piccolo preservando la soluzione. |
| Approssimazione a rango basso | Campionare righe o colonne informative | Conservare il sottospazio dominante. |
| Metodo di Nyström | Scegliere landmark con alta importanza spettrale | Approssimare meglio la matrice kernel. |
| Diagnostica statistica | Individuare osservazioni geometricamente estreme | Separare leva, residuo e influenza. |
Nel metodo di Nyström, il campionamento uniforme dei landmark può trascurare regioni geometricamente importanti. Campionare in base a leverage score, o a loro approssimazioni, cerca invece di preservare le direzioni dominanti della matrice di Gram.
Kernel leverage score
Nei metodi kernel si lavora con una matrice K\in\mathbb R^{n\times n} semidefinita positiva. Una versione regolarizzata del leverage score è
Il parametro \lambda>0 attenua le direzioni poco stabili e rende il punteggio più adatto al campionamento numerico. In approssimazioni kernel, questi punteggi aiutano a scegliere landmark più informativi rispetto al campionamento uniforme.
| Variante | Formula | Contesto |
|---|---|---|
| Leverage lineare | \displaystyle h_i=(P_A)_{ii} | Righe di una matrice o regressione lineare. |
| Leverage QR | \displaystyle h_i=\lVert q_i\rVert_2^2 | Sottospazio colonna esplicito. |
| Kernel leverage | \displaystyle \ell_i^\lambda=\left[K(K+\lambda I)^{-1}\right]_{ii} | Campionamento in metodi kernel regolarizzati. |
| Landmark score | \displaystyle p_i\propto \ell_i^\lambda | Selezione probabilistica di punti rappresentativi. |
Errori comuni
- Confondere leva e outlier nella risposta: una leva alta riguarda le covariate, non necessariamente il valore osservato di y.
- Chiamare influente ogni punto ad alta leva: l’influenza richiede anche un residuo rilevante.
- Usare solo soglie meccaniche: regole come h_{ii}>2p/n sono allarmi, non prove definitive.
- Ignorare la scala delle variabili: in regressione e metodi kernel, standardizzazione e preprocessing cambiano la geometria.
- Campionare sempre uniformemente: in matrici con leverage molto sbilanciati, il campionamento uniforme può perdere direzioni essenziali.
Vedi anche: residuo standardizzato, matrice hat, distanza di Cook, metodo di Nyström, minimi quadrati, regressione lineare, matrice di Gram, pseudoinversa, proiezione ortogonale, decomposizione SVD.