Minimi quadrati — ingegnerismo.it

Il metodo dei minimi quadrati cerca la soluzione che rende minimo l’errore quadratico tra dati osservati e valori previsti da un modello lineare. È centrale in algebra lineare numerica, regressione lineare, identificazione di parametri, calibrazione, fitting sperimentale, approssimazione di funzioni e analisi dei dati.

La situazione tipica è un problema sovradeterminato, cioè un sistema lineare con più equazioni che incognite:

Ax\approx b,

dove ci sono più equazioni che incognite oppure i dati sono affetti da rumore. In generale non esiste un vettore $x$ che soddisfi esattamente $Ax=b$ ; si cerca allora il vettore che rende $Ax$ il più vicino possibile a $b$ nella norma euclidea.

Problema di ottimizzazione

Il problema classico è:

x^\ast = \operatorname*{arg\,min}_{x} \|Ax-b\|_2^2.

Il vettore:

r=b-Ax

è il residuo. Minimizzare $\|r\|_2^2$ significa minimizzare la somma dei quadrati degli scarti:

\|Ax-b\|_2^2 = \sum_{i=1}^{m} \left((Ax)_i-b_i\right)^2.

Il quadrato penalizza molto gli errori grandi e rende il problema differenziabile e convesso. Per questo i minimi quadrati sono semplici da trattare algebricamente, ma possono essere sensibili a osservazioni anomale.

Interpretazione geometrica

Le colonne di $A$ generano un sottospazio:

\mathcal{C}(A)=\{Ax:x\in\mathbb{R}^n\}.

Il vettore $Ax^\ast$ è il punto dello spazio colonna più vicino a $b$ . In altri termini, è la proiezione ortogonale di $b$ su $\mathcal{C}(A)$ :

\widehat b=Ax^\ast=P_{\mathcal{C}(A)}b.

Il residuo ottimo è ortogonale allo spazio colonna:

A^T(b-Ax^\ast)=0.

Questa condizione è la chiave concettuale del metodo. Non dice che l’errore sia nullo; dice che non esiste alcuna direzione nello spazio generato dalle colonne di $A$ lungo cui si possa ridurre ulteriormente il residuo.

Equazioni normali

Dalla condizione di ortogonalità si ottengono le equazioni normali:

A^TAx^\ast=A^Tb.

Se $A$ ha colonne linearmente indipendenti, $A^TA$ è invertibile e la soluzione è:

x^\ast=(A^TA)^{-1}A^Tb.

Questa formula è importante per capire la teoria, ma non è sempre la scelta migliore per il calcolo numerico. Formare $A^TA$ può peggiorare il numero di condizionamento e amplificare errori di arrotondamento.

Quando $A$ non ha rango pieno, le equazioni normali possono avere infinite soluzioni. In quel caso la pseudoinversa seleziona la soluzione ai minimi quadrati di norma minima:

x^\ast=A^+b.

Proiettore e matrice hat

Se $A$ ha colonne indipendenti, il proiettore ortogonale sullo spazio colonna è:

P_A=A(A^TA)^{-1}A^T.

In forma generale, usando la pseudoinversa:

P_A=A(A^TA)^\dagger A^T.

La predizione è:

\widehat b=P_Ab,

mentre il residuo è:

r=(I-P_A)b.

In statistica, con matrice di progetto $X$ , questo proiettore è la matrice hat:

H=X(X^TX)^{-1}X^T, \qquad \widehat y=Hy.

La diagonale di $H$ contiene i leverage score, che misurano quanto ciascuna osservazione è geometricamente influente nello spazio delle covariate.

Risoluzione con QR

Per calcolare soluzioni stabili si preferisce spesso la fattorizzazione QR. Se $A=QR$ , con $Q$ a colonne ortonormali e $R$ triangolare superiore, allora:

\|Ax-b\|_2 = \|QRx-b\|_2.

Poiché $Q$ conserva le lunghezze nelle direzioni dello spazio colonna, il problema si riduce a:

Rx^\ast=Q^Tb.

Questa forma evita di costruire $A^TA$ e sfrutta trasformazioni ortogonali, che sono numericamente più stabili. È il metodo standard quando $A$ ha rango pieno e il problema non richiede una diagnosi fine delle direzioni quasi singolari.

Risoluzione con SVD

La decomposizione SVD è più costosa ma più informativa. Se:

A=U\Sigma V^T,

allora la pseudoinversa è:

A^+=V\Sigma^+U^T,

e la soluzione di norma minima è:

x^\ast=A^+b.

La SVD mostra quali direzioni del problema sono ben determinate e quali sono quasi non identificabili. Valori singolari molto piccoli indicano instabilità: piccoli errori nei dati possono produrre grandi variazioni nei coefficienti.

In problemi mal condizionati si possono usare soglie sui valori singolari, troncamento della SVD o regolarizzazione.

Minimi quadrati e regressione

Nella regressione lineare si scrive:

y=X\beta+\varepsilon,

dove $X$ è la matrice di progetto, $\beta$ contiene i coefficienti e $\varepsilon$ raccoglie gli errori. Lo stimatore OLS è:

\widehat\beta = \operatorname*{arg\,min}_{\beta} \|X\beta-y\|_2^2.

Se $X$ ha rango pieno:

\widehat\beta=(X^TX)^{-1}X^Ty.

La regressione interpreta i minimi quadrati in termini statistici: residui, varianza stimata, intervalli di confidenza, test sui coefficienti, R quadro e diagnostica delle osservazioni influenti. Il teorema di Gauss-Markov precisa le ipotesi sotto cui OLS è il miglior stimatore lineare non distorto.

Residui e diagnostica

I residui:

\widehat\varepsilon=y-\widehat y =(I-H)y

misurano ciò che il modello non spiega. Nei modelli con intercetta, i residui sono ortogonali alla colonna costante e quindi la loro somma è nulla:

\sum_i \widehat\varepsilon_i=0.

La diagnostica non deve guardare solo la grandezza del residuo. Un punto può avere residuo moderato ma leverage molto alto; oppure può avere residuo grande ma posizione geometrica ordinaria. Per questo si usano quantità come:

Quantità	Lettura
residuo standardizzato	residuo scalato rispetto alla variabilità attesa
leverage score	posizione estrema nello spazio dei regressori
distanza di Cook	influenza complessiva sul fit
$R^2$	quota di variabilità spiegata dal modello

Una buona soluzione ai minimi quadrati non è solo un vettore di coefficienti: include il controllo dei residui, dei punti influenti e della coerenza del modello con i dati.

Varianti

I minimi quadrati hanno molte estensioni:

Variante	Obiettivo
minimi quadrati pesati	dare peso diverso alle osservazioni
minimi quadrati generalizzati	gestire errori correlati o eteroschedastici
ridge regression	stabilizzare coefficienti con penalità quadratica
minimi quadrati non lineari	stimare parametri in modelli non lineari
regressione robusta	ridurre la sensibilità agli outlier

Nei minimi quadrati pesati, con matrice di pesi $W$ simmetrica definita positiva, il criterio diventa:

\min_x (Ax-b)^T W (Ax-b).

Nella ridge regression si aggiunge una penalità:

\min_x \|Ax-b\|_2^2+\lambda\|x\|_2^2, \qquad \lambda\ge0.

La penalità riduce la varianza dei coefficienti e aiuta quando le colonne di $A$ sono quasi dipendenti, come nei casi di multicollinearità.

Applicazioni

I minimi quadrati compaiono in:

taratura di strumenti e sensori;
identificazione di parametri fisici;
fitting di curve e superfici;
regressione statistica;
ricostruzione di segnali;
stima di traiettorie e orbite;
fotogrammetria e geodesia;
controllo qualità e analisi sperimentale;
machine learning lineare.

La forza del metodo è la combinazione di interpretazione geometrica, calcolo efficiente e collegamento statistico. Il limite è che l’errore quadratico premia modelli con residui medi piccoli ma può reagire male a outlier, dati mal scalati o modelli strutturalmente sbagliati.

Errori comuni

Il primo errore è usare le equazioni normali come se fossero sempre il modo migliore per calcolare la soluzione. Sono fondamentali teoricamente, ma in presenza di cattivo condizionamento conviene usare QR o SVD.

Il secondo errore è leggere un residuo piccolo come prova che il modello sia corretto. Un modello può adattarsi bene ai dati osservati e restare inadatto fuori campione, oppure può nascondere struttura nei residui.

Un altro errore è ignorare rango e scala delle colonne. Variabili con unità molto diverse, colonne quasi dipendenti e osservazioni ad alta leva possono dominare il risultato. Prima di interpretare i coefficienti bisogna controllare condizionamento, residui e influenza.

Vedi anche: Problema sovradeterminato, Equazioni normali, Pseudoinversa, Proiezione ortogonale, Fattorizzazione QR, Decomposizione SVD, Regressione lineare, Matrice hat, Leverage score e minimi quadrati e regressione numerica: esercizi.