Il metodo dei minimi quadrati cerca la soluzione che rende minimo l’errore quadratico tra dati osservati e valori previsti da un modello lineare. È centrale in algebra lineare numerica, regressione lineare, identificazione di parametri, calibrazione, fitting sperimentale, approssimazione di funzioni e analisi dei dati.
La situazione tipica è un problema sovradeterminato, cioè un sistema lineare con più equazioni che incognite:
dove ci sono più equazioni che incognite oppure i dati sono affetti da rumore. In generale non esiste un vettore x che soddisfi esattamente Ax=b; si cerca allora il vettore che rende Ax il più vicino possibile a b nella norma euclidea.
Problema di ottimizzazione
Il problema classico è:
Il vettore:
è il residuo. Minimizzare \|r\|_2^2 significa minimizzare la somma dei quadrati degli scarti:
Il quadrato penalizza molto gli errori grandi e rende il problema differenziabile e convesso. Per questo i minimi quadrati sono semplici da trattare algebricamente, ma possono essere sensibili a osservazioni anomale.
Interpretazione geometrica
Le colonne di A generano un sottospazio:
Il vettore Ax^\ast è il punto dello spazio colonna più vicino a b. In altri termini, è la proiezione ortogonale di b su \mathcal{C}(A):
Il residuo ottimo è ortogonale allo spazio colonna:
Questa condizione è la chiave concettuale del metodo. Non dice che l’errore sia nullo; dice che non esiste alcuna direzione nello spazio generato dalle colonne di A lungo cui si possa ridurre ulteriormente il residuo.
Equazioni normali
Dalla condizione di ortogonalità si ottengono le equazioni normali:
Se A ha colonne linearmente indipendenti, A^TA è invertibile e la soluzione è:
Questa formula è importante per capire la teoria, ma non è sempre la scelta migliore per il calcolo numerico. Formare A^TA può peggiorare il numero di condizionamento e amplificare errori di arrotondamento.
Quando A non ha rango pieno, le equazioni normali possono avere infinite soluzioni. In quel caso la pseudoinversa seleziona la soluzione ai minimi quadrati di norma minima:
Proiettore e matrice hat
Se A ha colonne indipendenti, il proiettore ortogonale sullo spazio colonna è:
In forma generale, usando la pseudoinversa:
La predizione è:
mentre il residuo è:
In statistica, con matrice di progetto X, questo proiettore è la matrice hat:
La diagonale di H contiene i leverage score, che misurano quanto ciascuna osservazione è geometricamente influente nello spazio delle covariate.
Risoluzione con QR
Per calcolare soluzioni stabili si preferisce spesso la fattorizzazione QR. Se A=QR, con Q a colonne ortonormali e R triangolare superiore, allora:
Poiché Q conserva le lunghezze nelle direzioni dello spazio colonna, il problema si riduce a:
Questa forma evita di costruire A^TA e sfrutta trasformazioni ortogonali, che sono numericamente più stabili. È il metodo standard quando A ha rango pieno e il problema non richiede una diagnosi fine delle direzioni quasi singolari.
Risoluzione con SVD
La decomposizione SVD è più costosa ma più informativa. Se:
allora la pseudoinversa è:
e la soluzione di norma minima è:
La SVD mostra quali direzioni del problema sono ben determinate e quali sono quasi non identificabili. Valori singolari molto piccoli indicano instabilità: piccoli errori nei dati possono produrre grandi variazioni nei coefficienti.
In problemi mal condizionati si possono usare soglie sui valori singolari, troncamento della SVD o regolarizzazione.
Minimi quadrati e regressione
Nella regressione lineare si scrive:
dove X è la matrice di progetto, \beta contiene i coefficienti e \varepsilon raccoglie gli errori. Lo stimatore OLS è:
Se X ha rango pieno:
La regressione interpreta i minimi quadrati in termini statistici: residui, varianza stimata, intervalli di confidenza, test sui coefficienti, R quadro e diagnostica delle osservazioni influenti. Il teorema di Gauss-Markov precisa le ipotesi sotto cui OLS è il miglior stimatore lineare non distorto.
Residui e diagnostica
I residui:
misurano ciò che il modello non spiega. Nei modelli con intercetta, i residui sono ortogonali alla colonna costante e quindi la loro somma è nulla:
La diagnostica non deve guardare solo la grandezza del residuo. Un punto può avere residuo moderato ma leverage molto alto; oppure può avere residuo grande ma posizione geometrica ordinaria. Per questo si usano quantità come:
| Quantità | Lettura |
|---|---|
| residuo standardizzato | residuo scalato rispetto alla variabilità attesa |
| leverage score | posizione estrema nello spazio dei regressori |
| distanza di Cook | influenza complessiva sul fit |
| R^2 | quota di variabilità spiegata dal modello |
Una buona soluzione ai minimi quadrati non è solo un vettore di coefficienti: include il controllo dei residui, dei punti influenti e della coerenza del modello con i dati.
Varianti
I minimi quadrati hanno molte estensioni:
| Variante | Obiettivo |
|---|---|
| minimi quadrati pesati | dare peso diverso alle osservazioni |
| minimi quadrati generalizzati | gestire errori correlati o eteroschedastici |
| ridge regression | stabilizzare coefficienti con penalità quadratica |
| minimi quadrati non lineari | stimare parametri in modelli non lineari |
| regressione robusta | ridurre la sensibilità agli outlier |
Nei minimi quadrati pesati, con matrice di pesi W simmetrica definita positiva, il criterio diventa:
Nella ridge regression si aggiunge una penalità:
La penalità riduce la varianza dei coefficienti e aiuta quando le colonne di A sono quasi dipendenti, come nei casi di multicollinearità.
Applicazioni
I minimi quadrati compaiono in:
- taratura di strumenti e sensori;
- identificazione di parametri fisici;
- fitting di curve e superfici;
- regressione statistica;
- ricostruzione di segnali;
- stima di traiettorie e orbite;
- fotogrammetria e geodesia;
- controllo qualità e analisi sperimentale;
- machine learning lineare.
La forza del metodo è la combinazione di interpretazione geometrica, calcolo efficiente e collegamento statistico. Il limite è che l’errore quadratico premia modelli con residui medi piccoli ma può reagire male a outlier, dati mal scalati o modelli strutturalmente sbagliati.
Errori comuni
Il primo errore è usare le equazioni normali come se fossero sempre il modo migliore per calcolare la soluzione. Sono fondamentali teoricamente, ma in presenza di cattivo condizionamento conviene usare QR o SVD.
Il secondo errore è leggere un residuo piccolo come prova che il modello sia corretto. Un modello può adattarsi bene ai dati osservati e restare inadatto fuori campione, oppure può nascondere struttura nei residui.
Un altro errore è ignorare rango e scala delle colonne. Variabili con unità molto diverse, colonne quasi dipendenti e osservazioni ad alta leva possono dominare il risultato. Prima di interpretare i coefficienti bisogna controllare condizionamento, residui e influenza.
Vedi anche: Problema sovradeterminato, Equazioni normali, Pseudoinversa, Proiezione ortogonale, Fattorizzazione QR, Decomposizione SVD, Regressione lineare, Matrice hat, Leverage score e minimi quadrati e regressione numerica: esercizi.