Equazioni normali

Indice dei contenuti

    Le equazioni normali sono il sistema lineare che caratterizza la soluzione di un problema di minimi quadrati nella forma:

    A x \simeq b.

    Se A\in\mathbb{R}^{m\times n}, b\in\mathbb{R}^m e si vuole minimizzare:

    \min_x \|Ax-b\|_2^2,

    la condizione di ottimalità è:

    A^T A x = A^T b.

    Questo sistema prende il nome di equazioni normali perché il residuo ottimo:

    r=b-Ax

    deve essere ortogonale allo spazio delle colonne di A:

    A^T r=0.

    Interpretazione geometrica

    Il vettore Ax appartiene allo spazio generato dalle colonne di A. Risolvere il problema dei minimi quadrati significa trovare il punto di questo sottospazio più vicino a b. La differenza tra b e la sua approssimazione è il residuo, e nel punto più vicino il residuo è perpendicolare al sottospazio.

    Questa è la stessa logica della proiezione ortogonale: l’approssimazione Ax è la proiezione di b su \operatorname{Col}(A).

    Se P è la matrice di proiezione sullo spazio delle colonne di A, allora:

    \hat b=Pb, \qquad r=b-\hat b.

    La condizione A^Tr=0 dice che nessuna combinazione lineare delle colonne di A può ridurre ulteriormente il residuo. È una condizione di stazionarietà geometrica, non solo algebrica.

    Derivazione tramite gradiente

    Le equazioni normali si ottengono anche derivando la funzione obiettivo:

    \phi(x)=\|Ax-b\|_2^2.

    Espandendo:

    \phi(x)= (Ax-b)^T(Ax-b) =x^TA^TAx-2x^TA^Tb+b^Tb.

    Il gradiente rispetto a x è:

    \nabla\phi(x)=2A^TAx-2A^Tb.

    Imponendo la condizione di stazionarietà:

    \nabla\phi(x)=0,

    si ottiene:

    A^TAx=A^Tb.

    Questa derivazione è utile quando si passa a varianti regolarizzate o pesate, perché mostra come cambiano i termini della funzione obiettivo.

    Soluzione esplicita

    Se A ha rango colonnare pieno, la matrice A^TA è invertibile e:

    x=(A^TA)^{-1}A^Tb.

    La matrice:

    (A^TA)^{-1}A^T

    è la forma classica della pseudoinversa per matrici con colonne indipendenti.

    Se il rango non è pieno, il sistema può avere infinite soluzioni ai minimi quadrati. In questo caso la soluzione di norma euclidea minima è:

    x=A^+b,

    dove A^+ è la pseudoinversa di Moore-Penrose. La decomposizione SVD è il metodo concettualmente più chiaro per distinguere direzioni informative, direzioni quasi nulle e componenti non identificabili.

    Forma pesata

    Quando le osservazioni hanno affidabilità diversa, si usa una versione pesata:

    \min_x (Ax-b)^T W (Ax-b),

    dove W è una matrice simmetrica definita positiva. Le equazioni normali diventano:

    A^T W A x=A^T W b.

    Se W è diagonale, un peso grande dà più importanza all’osservazione corrispondente. In metrologia, geodesia e regressione, spesso si sceglie un peso inversamente proporzionale alla varianza dell’errore di misura.

    Versione regolarizzata

    Quando il problema è instabile o quasi singolare, si può aggiungere una penalizzazione:

    \min_x \left( \|Ax-b\|_2^2+\lambda\|x\|_2^2 \right).

    Le equazioni diventano:

    (A^TA+\lambda I)x=A^Tb.

    Questa è la forma della regressione ridge. Il termine \lambda I migliora il condizionamento e riduce la sensibilità della soluzione al rumore, al prezzo di introdurre bias.

    Limiti numerici

    Le equazioni normali sono semplici da scrivere, ma possono essere numericamente delicate. Il condizionamento peggiora perché:

    \kappa(A^TA)=\kappa(A)^2.

    Se A è mal condizionata, formare esplicitamente A^TA può amplificare gli errori di arrotondamento. Per questo, nei calcoli numerici, si preferiscono spesso la fattorizzazione QR o la decomposizione SVD, più robuste anche quando le colonne sono quasi dipendenti.

    Un criterio pratico è questo: le equazioni normali sono eccellenti per capire il problema e per derivare proprietà statistiche; QR e SVD sono spesso preferibili per risolverlo in modo numericamente affidabile.

    In regressione

    Nella regressione lineare le equazioni normali assumono la forma:

    X^T X\hat\beta=X^T y,

    dove X è la matrice dei regressori, y il vettore delle osservazioni e \hat\beta il vettore stimato dei coefficienti. Il residuo stimato:

    \hat r=y-X\hat\beta

    è ortogonale a ogni colonna di X, inclusa la colonna dell’intercetta se presente.

    Se l’intercetta è inclusa nel modello, l’ortogonalità rispetto alla colonna di uni implica:

    \sum_i \hat r_i=0.

    Questa proprietà spiega perché, nella regressione ordinaria con intercetta, i residui stimati hanno media nulla. Se l’intercetta manca, la proprietà non è garantita.

    Proprietà statistica

    Nel modello lineare classico:

    y=X\beta+\varepsilon,

    se gli errori hanno media nulla, varianza costante e sono incorrelati, lo stimatore ottenuto dalle equazioni normali coincide con lo stimatore dei minimi quadrati ordinari. Sotto le ipotesi del teorema di Gauss-Markov, è il migliore stimatore lineare non distorto, nel senso che ha varianza minima tra gli stimatori lineari non distorti.

    Questa proprietà è statistica, non puramente algebrica. Se gli errori sono correlati, eteroschedastici o il modello è mal specificato, le equazioni normali continuano a produrre una soluzione ai minimi quadrati, ma l’interpretazione inferenziale cambia.

    Quando usarle davvero

    Le equazioni normali sono adatte per derivazioni teoriche, modelli piccoli, problemi ben condizionati e spiegazioni geometriche. Sono meno adatte come algoritmo predefinito quando i dati sono quasi collineari, la scala delle colonne è molto diversa o serve alta accuratezza numerica.

    Una pratica robusta consiste nel distinguere:

    UsoScelta ragionevole
    teoria e interpretazioneequazioni normali
    calcolo numerico generaleQR
    rango incerto o colonne quasi dipendentiSVD
    problema instabileregolarizzazione

    Errori comuni

    Un errore frequente è pensare che le equazioni normali siano sempre il metodo migliore per risolvere i minimi quadrati. Sono fondamentali dal punto di vista teorico, ma non sempre sono la scelta numerica più stabile.

    Un secondo errore è usarle senza controllare il rango di A. Se le colonne sono linearmente dipendenti, A^TA non è invertibile e la soluzione non è unica; in quel caso si usano la pseudoinversa, la SVD o regolarizzazioni come ridge regression.

    Voci correlate

    Pubblicato: