Le equazioni normali sono il sistema lineare che caratterizza la soluzione di un problema di minimi quadrati nella forma:
Se A\in\mathbb{R}^{m\times n}, b\in\mathbb{R}^m e si vuole minimizzare:
la condizione di ottimalità è:
Questo sistema prende il nome di equazioni normali perché il residuo ottimo:
deve essere ortogonale allo spazio delle colonne di A:
Interpretazione geometrica
Il vettore Ax appartiene allo spazio generato dalle colonne di A. Risolvere il problema dei minimi quadrati significa trovare il punto di questo sottospazio più vicino a b. La differenza tra b e la sua approssimazione è il residuo, e nel punto più vicino il residuo è perpendicolare al sottospazio.
Questa è la stessa logica della proiezione ortogonale: l’approssimazione Ax è la proiezione di b su \operatorname{Col}(A).
Se P è la matrice di proiezione sullo spazio delle colonne di A, allora:
La condizione A^Tr=0 dice che nessuna combinazione lineare delle colonne di A può ridurre ulteriormente il residuo. È una condizione di stazionarietà geometrica, non solo algebrica.
Derivazione tramite gradiente
Le equazioni normali si ottengono anche derivando la funzione obiettivo:
Espandendo:
Il gradiente rispetto a x è:
Imponendo la condizione di stazionarietà:
si ottiene:
Questa derivazione è utile quando si passa a varianti regolarizzate o pesate, perché mostra come cambiano i termini della funzione obiettivo.
Soluzione esplicita
Se A ha rango colonnare pieno, la matrice A^TA è invertibile e:
La matrice:
è la forma classica della pseudoinversa per matrici con colonne indipendenti.
Se il rango non è pieno, il sistema può avere infinite soluzioni ai minimi quadrati. In questo caso la soluzione di norma euclidea minima è:
dove A^+ è la pseudoinversa di Moore-Penrose. La decomposizione SVD è il metodo concettualmente più chiaro per distinguere direzioni informative, direzioni quasi nulle e componenti non identificabili.
Forma pesata
Quando le osservazioni hanno affidabilità diversa, si usa una versione pesata:
dove W è una matrice simmetrica definita positiva. Le equazioni normali diventano:
Se W è diagonale, un peso grande dà più importanza all’osservazione corrispondente. In metrologia, geodesia e regressione, spesso si sceglie un peso inversamente proporzionale alla varianza dell’errore di misura.
Versione regolarizzata
Quando il problema è instabile o quasi singolare, si può aggiungere una penalizzazione:
Le equazioni diventano:
Questa è la forma della regressione ridge. Il termine \lambda I migliora il condizionamento e riduce la sensibilità della soluzione al rumore, al prezzo di introdurre bias.
Limiti numerici
Le equazioni normali sono semplici da scrivere, ma possono essere numericamente delicate. Il condizionamento peggiora perché:
Se A è mal condizionata, formare esplicitamente A^TA può amplificare gli errori di arrotondamento. Per questo, nei calcoli numerici, si preferiscono spesso la fattorizzazione QR o la decomposizione SVD, più robuste anche quando le colonne sono quasi dipendenti.
Un criterio pratico è questo: le equazioni normali sono eccellenti per capire il problema e per derivare proprietà statistiche; QR e SVD sono spesso preferibili per risolverlo in modo numericamente affidabile.
In regressione
Nella regressione lineare le equazioni normali assumono la forma:
dove X è la matrice dei regressori, y il vettore delle osservazioni e \hat\beta il vettore stimato dei coefficienti. Il residuo stimato:
è ortogonale a ogni colonna di X, inclusa la colonna dell’intercetta se presente.
Se l’intercetta è inclusa nel modello, l’ortogonalità rispetto alla colonna di uni implica:
Questa proprietà spiega perché, nella regressione ordinaria con intercetta, i residui stimati hanno media nulla. Se l’intercetta manca, la proprietà non è garantita.
Proprietà statistica
Nel modello lineare classico:
se gli errori hanno media nulla, varianza costante e sono incorrelati, lo stimatore ottenuto dalle equazioni normali coincide con lo stimatore dei minimi quadrati ordinari. Sotto le ipotesi del teorema di Gauss-Markov, è il migliore stimatore lineare non distorto, nel senso che ha varianza minima tra gli stimatori lineari non distorti.
Questa proprietà è statistica, non puramente algebrica. Se gli errori sono correlati, eteroschedastici o il modello è mal specificato, le equazioni normali continuano a produrre una soluzione ai minimi quadrati, ma l’interpretazione inferenziale cambia.
Quando usarle davvero
Le equazioni normali sono adatte per derivazioni teoriche, modelli piccoli, problemi ben condizionati e spiegazioni geometriche. Sono meno adatte come algoritmo predefinito quando i dati sono quasi collineari, la scala delle colonne è molto diversa o serve alta accuratezza numerica.
Una pratica robusta consiste nel distinguere:
| Uso | Scelta ragionevole |
|---|---|
| teoria e interpretazione | equazioni normali |
| calcolo numerico generale | QR |
| rango incerto o colonne quasi dipendenti | SVD |
| problema instabile | regolarizzazione |
Errori comuni
Un errore frequente è pensare che le equazioni normali siano sempre il metodo migliore per risolvere i minimi quadrati. Sono fondamentali dal punto di vista teorico, ma non sempre sono la scelta numerica più stabile.
Un secondo errore è usarle senza controllare il rango di A. Se le colonne sono linearmente dipendenti, A^TA non è invertibile e la soluzione non è unica; in quel caso si usano la pseudoinversa, la SVD o regolarizzazioni come ridge regression.