Leverage score

Indice dei contenuti

    Il leverage score misura quanto una riga di una matrice contribuisce alla geometria dello spazio colonna. In regressione lineare indica quanto un’osservazione è lontana, nello spazio delle covariate, dal centro della nuvola dei dati; in algebra lineare randomizzata indica quali righe o punti sono più importanti per preservare rango, proiezioni e approssimazioni.

    Se A\in\mathbb R^{n\times p} ha righe a_i^T, la matrice di proiezione ortogonale sullo spazio colonna di A è

    P_A=A(A^TA)^\dagger A^T.

    Il leverage score della riga i è la diagonale di questa proiezione:

    h_i=(P_A)_{ii} = a_i^T(A^TA)^\dagger a_i.

    Definizione matriciale

    OggettoFormulaSignificato
    Matrice dei dati\displaystyle A\in\mathbb R^{n\times p}Righe osservazioni, colonne variabili o feature.
    Proiettore\displaystyle P_A=A(A^TA)^\dagger A^TProietta su \displaystyle \operatorname{col}(A).
    Leverage score\displaystyle h_i=(P_A)_{ii}Peso geometrico della riga \displaystyle i.
    Forma per riga\displaystyle h_i=a_i^T(A^TA)^\dagger a_iCalcolo diretto dalla riga \displaystyle a_i^T.
    Somma\displaystyle \sum_{i=1}^n h_i=\operatorname{rank}(A)La massa totale coincide con il rango.
    Intervallo\displaystyle 0\le h_i\le1Nessuna riga può pesare più di una direzione intera.

    Il leverage score non misura il valore della risposta y_i: misura la posizione della riga a_i rispetto allo spazio generato dalle colonne della matrice.

    Lettura tramite QR

    Se A ha rango r e

    A=QR

    è una fattorizzazione QR sottile, con Q\in\mathbb R^{n\times r} a colonne ortonormali, allora

    P_A=QQ^T

    e il leverage score diventa

    h_i=\lVert q_i\rVert_2^2,

    dove q_i^T è la riga i di Q. Questa forma mostra che i leverage score dipendono solo dal sottospazio colonna, non dalla particolare base usata per descriverlo.

    RappresentazioneFormulaUso
    Proiettore\displaystyle h_i=(P_A)_{ii}Definizione geometrica.
    QR sottile\displaystyle h_i=\lVert q_i\rVert_2^2Calcolo stabile e interpretazione per righe.
    SVD sottile\displaystyle h_i=\lVert u_i\rVert_2^2Lettura tramite autovettori sinistri dominanti.
    Probabilità di campionamento\displaystyle p_i=\dfrac{h_i}{r}Campionamento proporzionale all’importanza geometrica.

    Regressione lineare

    Nella regressione lineare, con matrice di progetto X, la matrice

    H=X(X^TX)^{-1}X^T

    è detta spesso matrice hat, perché trasforma le osservazioni in valori stimati:

    \widehat y=Hy.

    La leva dell’osservazione i è

    h_{ii}=H_{ii}.

    Un valore alto di h_{ii} significa che il punto ha covariate insolite rispetto agli altri punti. Questo non basta per dire che il punto sia influente: serve anche guardare il residuo.

    DiagnosticaFormulaChe cosa misura
    Leva\displaystyle h_{ii}Posizione estrema nello spazio delle covariate.
    Residuo\displaystyle \widehat\varepsilon_i=y_i-\widehat y_iErrore verticale del modello.
    Residuo standardizzato\displaystyle r_i=\dfrac{\widehat\varepsilon_i}{\widehat\sigma\sqrt{1-h_{ii}}}Errore corretto per la leva.
    Influenza\displaystyle D_i=\dfrac{r_i^2}{p}\dfrac{h_{ii}}{1-h_{ii}}Effetto congiunto di leva e residuo, come nella distanza di Cook.

    Un punto con leva alta ma residuo piccolo può essere coerente con il modello. Un punto con leva alta e residuo grande può invece modificare sensibilmente coefficienti, predizioni e inferenza.

    Campionamento e approssimazioni

    In algebra lineare numerica, i leverage score servono a campionare righe, colonne o landmark in modo informativo. L’idea è semplice: se una riga ha leverage score alto, rimuoverla o sottocampionarla male può alterare molto lo spazio colonna.

    ProblemaUso dei leverage scoreObiettivo
    Minimi quadrati grandiCampionare righe con probabilità \displaystyle p_i\propto h_iRisolvere un problema più piccolo preservando la soluzione.
    Approssimazione a rango bassoCampionare righe o colonne informativeConservare il sottospazio dominante.
    Metodo di NyströmScegliere landmark con alta importanza spettraleApprossimare meglio la matrice kernel.
    Diagnostica statisticaIndividuare osservazioni geometricamente estremeSeparare leva, residuo e influenza.

    Nel metodo di Nyström, il campionamento uniforme dei landmark può trascurare regioni geometricamente importanti. Campionare in base a leverage score, o a loro approssimazioni, cerca invece di preservare le direzioni dominanti della matrice di Gram.

    Kernel leverage score

    Nei metodi kernel si lavora con una matrice K\in\mathbb R^{n\times n} semidefinita positiva. Una versione regolarizzata del leverage score è

    \ell_i^\lambda = \left[ K(K+\lambda I)^{-1} \right]_{ii}.

    Il parametro \lambda>0 attenua le direzioni poco stabili e rende il punteggio più adatto al campionamento numerico. In approssimazioni kernel, questi punteggi aiutano a scegliere landmark più informativi rispetto al campionamento uniforme.

    VarianteFormulaContesto
    Leverage lineare\displaystyle h_i=(P_A)_{ii}Righe di una matrice o regressione lineare.
    Leverage QR\displaystyle h_i=\lVert q_i\rVert_2^2Sottospazio colonna esplicito.
    Kernel leverage\displaystyle \ell_i^\lambda=\left[K(K+\lambda I)^{-1}\right]_{ii}Campionamento in metodi kernel regolarizzati.
    Landmark score\displaystyle p_i\propto \ell_i^\lambdaSelezione probabilistica di punti rappresentativi.

    Errori comuni

    • Confondere leva e outlier nella risposta: una leva alta riguarda le covariate, non necessariamente il valore osservato di y.
    • Chiamare influente ogni punto ad alta leva: l’influenza richiede anche un residuo rilevante.
    • Usare solo soglie meccaniche: regole come h_{ii}>2p/n sono allarmi, non prove definitive.
    • Ignorare la scala delle variabili: in regressione e metodi kernel, standardizzazione e preprocessing cambiano la geometria.
    • Campionare sempre uniformemente: in matrici con leverage molto sbilanciati, il campionamento uniforme può perdere direzioni essenziali.

    Vedi anche: residuo standardizzato, matrice hat, distanza di Cook, metodo di Nyström, minimi quadrati, regressione lineare, matrice di Gram, pseudoinversa, proiezione ortogonale, decomposizione SVD.

    Pubblicato: