Equazioni normali

Le equazioni normali sono il sistema lineare che caratterizza la soluzione di un problema di minimi quadrati nella forma:

A x \simeq b.

Se $A\in\mathbb{R}^{m\times n}$ , $b\in\mathbb{R}^m$ e si vuole minimizzare:

\min_x \|Ax-b\|_2^2,

la condizione di ottimalità è:

A^T A x = A^T b.

Questo sistema prende il nome di equazioni normali perché il residuo ottimo:

r=b-Ax

deve essere ortogonale allo spazio delle colonne di $A$ :

A^T r=0.

Interpretazione geometrica

Il vettore $Ax$ appartiene allo spazio generato dalle colonne di $A$ . Risolvere il problema dei minimi quadrati significa trovare il punto di questo sottospazio più vicino a $b$ . La differenza tra $b$ e la sua approssimazione è il residuo, e nel punto più vicino il residuo è perpendicolare al sottospazio.

Questa è la stessa logica della proiezione ortogonale: l’approssimazione $Ax$ è la proiezione di $b$ su $\operatorname{Col}(A)$ .

Se $P$ è la matrice di proiezione sullo spazio delle colonne di $A$ , allora:

\hat b=Pb, \qquad r=b-\hat b.

La condizione $A^Tr=0$ dice che nessuna combinazione lineare delle colonne di $A$ può ridurre ulteriormente il residuo. È una condizione di stazionarietà geometrica, non solo algebrica.

Derivazione tramite gradiente

Le equazioni normali si ottengono anche derivando la funzione obiettivo:

\phi(x)=\|Ax-b\|_2^2.

Espandendo:

\phi(x)= (Ax-b)^T(Ax-b) =x^TA^TAx-2x^TA^Tb+b^Tb.

Il gradiente rispetto a $x$ è:

\nabla\phi(x)=2A^TAx-2A^Tb.

Imponendo la condizione di stazionarietà:

\nabla\phi(x)=0,

si ottiene:

A^TAx=A^Tb.

Questa derivazione è utile quando si passa a varianti regolarizzate o pesate, perché mostra come cambiano i termini della funzione obiettivo.

Soluzione esplicita

Se $A$ ha rango colonnare pieno, la matrice $A^TA$ è invertibile e:

x=(A^TA)^{-1}A^Tb.

La matrice:

(A^TA)^{-1}A^T

è la forma classica della pseudoinversa per matrici con colonne indipendenti.

Se il rango non è pieno, il sistema può avere infinite soluzioni ai minimi quadrati. In questo caso la soluzione di norma euclidea minima è:

x=A^+b,

dove $A^+$ è la pseudoinversa di Moore-Penrose. La decomposizione SVD è il metodo concettualmente più chiaro per distinguere direzioni informative, direzioni quasi nulle e componenti non identificabili.

Forma pesata

Quando le osservazioni hanno affidabilità diversa, si usa una versione pesata:

\min_x (Ax-b)^T W (Ax-b),

dove $W$ è una matrice simmetrica definita positiva. Le equazioni normali diventano:

A^T W A x=A^T W b.

Se $W$ è diagonale, un peso grande dà più importanza all’osservazione corrispondente. In metrologia, geodesia e regressione, spesso si sceglie un peso inversamente proporzionale alla varianza dell’errore di misura.

Versione regolarizzata

Quando il problema è instabile o quasi singolare, si può aggiungere una penalizzazione:

\min_x \left( \|Ax-b\|_2^2+\lambda\|x\|_2^2 \right).

Le equazioni diventano:

(A^TA+\lambda I)x=A^Tb.

Questa è la forma della regressione ridge. Il termine $\lambda I$ migliora il condizionamento e riduce la sensibilità della soluzione al rumore, al prezzo di introdurre bias.

Limiti numerici

Le equazioni normali sono semplici da scrivere, ma possono essere numericamente delicate. Il condizionamento peggiora perché:

\kappa(A^TA)=\kappa(A)^2.

Se $A$ è mal condizionata, formare esplicitamente $A^TA$ può amplificare gli errori di arrotondamento. Per questo, nei calcoli numerici, si preferiscono spesso la fattorizzazione QR o la decomposizione SVD, più robuste anche quando le colonne sono quasi dipendenti.

Un criterio pratico è questo: le equazioni normali sono eccellenti per capire il problema e per derivare proprietà statistiche; QR e SVD sono spesso preferibili per risolverlo in modo numericamente affidabile.

In regressione

Nella regressione lineare le equazioni normali assumono la forma:

X^T X\hat\beta=X^T y,

dove $X$ è la matrice dei regressori, $y$ il vettore delle osservazioni e $\hat\beta$ il vettore stimato dei coefficienti. Il residuo stimato:

\hat r=y-X\hat\beta

è ortogonale a ogni colonna di $X$ , inclusa la colonna dell’intercetta se presente.

Se l’intercetta è inclusa nel modello, l’ortogonalità rispetto alla colonna di uni implica:

\sum_i \hat r_i=0.

Questa proprietà spiega perché, nella regressione ordinaria con intercetta, i residui stimati hanno media nulla. Se l’intercetta manca, la proprietà non è garantita.

Proprietà statistica

Nel modello lineare classico:

y=X\beta+\varepsilon,

se gli errori hanno media nulla, varianza costante e sono incorrelati, lo stimatore ottenuto dalle equazioni normali coincide con lo stimatore dei minimi quadrati ordinari. Sotto le ipotesi del teorema di Gauss-Markov, è il migliore stimatore lineare non distorto, nel senso che ha varianza minima tra gli stimatori lineari non distorti.

Questa proprietà è statistica, non puramente algebrica. Se gli errori sono correlati, eteroschedastici o il modello è mal specificato, le equazioni normali continuano a produrre una soluzione ai minimi quadrati, ma l’interpretazione inferenziale cambia.

Quando usarle davvero

Le equazioni normali sono adatte per derivazioni teoriche, modelli piccoli, problemi ben condizionati e spiegazioni geometriche. Sono meno adatte come algoritmo predefinito quando i dati sono quasi collineari, la scala delle colonne è molto diversa o serve alta accuratezza numerica.

Una pratica robusta consiste nel distinguere:

Uso	Scelta ragionevole
teoria e interpretazione	equazioni normali
calcolo numerico generale	QR
rango incerto o colonne quasi dipendenti	SVD
problema instabile	regolarizzazione

Errori comuni

Un errore frequente è pensare che le equazioni normali siano sempre il metodo migliore per risolvere i minimi quadrati. Sono fondamentali dal punto di vista teorico, ma non sempre sono la scelta numerica più stabile.

Un secondo errore è usarle senza controllare il rango di $A$ . Se le colonne sono linearmente dipendenti, $A^TA$ non è invertibile e la soluzione non è unica; in quel caso si usano la pseudoinversa, la SVD o regolarizzazioni come ridge regression.