Minimi quadrati

Indice dei contenuti

    Il metodo dei minimi quadrati cerca la soluzione che rende minimo l’errore quadratico tra dati osservati e valori previsti da un modello lineare. È centrale in algebra lineare numerica, regressione lineare, identificazione di parametri, calibrazione, fitting sperimentale, approssimazione di funzioni e analisi dei dati.

    La situazione tipica è un problema sovradeterminato, cioè un sistema lineare con più equazioni che incognite:

    Ax\approx b,

    dove ci sono più equazioni che incognite oppure i dati sono affetti da rumore. In generale non esiste un vettore x che soddisfi esattamente Ax=b; si cerca allora il vettore che rende Ax il più vicino possibile a b nella norma euclidea.

    Problema di ottimizzazione

    Il problema classico è:

    x^\ast = \operatorname*{arg\,min}_{x} \|Ax-b\|_2^2.

    Il vettore:

    r=b-Ax

    è il residuo. Minimizzare \|r\|_2^2 significa minimizzare la somma dei quadrati degli scarti:

    \|Ax-b\|_2^2 = \sum_{i=1}^{m} \left((Ax)_i-b_i\right)^2.

    Il quadrato penalizza molto gli errori grandi e rende il problema differenziabile e convesso. Per questo i minimi quadrati sono semplici da trattare algebricamente, ma possono essere sensibili a osservazioni anomale.

    Interpretazione geometrica

    Le colonne di A generano un sottospazio:

    \mathcal{C}(A)=\{Ax:x\in\mathbb{R}^n\}.

    Il vettore Ax^\ast è il punto dello spazio colonna più vicino a b. In altri termini, è la proiezione ortogonale di b su \mathcal{C}(A):

    \widehat b=Ax^\ast=P_{\mathcal{C}(A)}b.

    Il residuo ottimo è ortogonale allo spazio colonna:

    A^T(b-Ax^\ast)=0.

    Questa condizione è la chiave concettuale del metodo. Non dice che l’errore sia nullo; dice che non esiste alcuna direzione nello spazio generato dalle colonne di A lungo cui si possa ridurre ulteriormente il residuo.

    Equazioni normali

    Dalla condizione di ortogonalità si ottengono le equazioni normali:

    A^TAx^\ast=A^Tb.

    Se A ha colonne linearmente indipendenti, A^TA è invertibile e la soluzione è:

    x^\ast=(A^TA)^{-1}A^Tb.

    Questa formula è importante per capire la teoria, ma non è sempre la scelta migliore per il calcolo numerico. Formare A^TA può peggiorare il numero di condizionamento e amplificare errori di arrotondamento.

    Quando A non ha rango pieno, le equazioni normali possono avere infinite soluzioni. In quel caso la pseudoinversa seleziona la soluzione ai minimi quadrati di norma minima:

    x^\ast=A^+b.

    Proiettore e matrice hat

    Se A ha colonne indipendenti, il proiettore ortogonale sullo spazio colonna è:

    P_A=A(A^TA)^{-1}A^T.

    In forma generale, usando la pseudoinversa:

    P_A=A(A^TA)^\dagger A^T.

    La predizione è:

    \widehat b=P_Ab,

    mentre il residuo è:

    r=(I-P_A)b.

    In statistica, con matrice di progetto X, questo proiettore è la matrice hat:

    H=X(X^TX)^{-1}X^T, \qquad \widehat y=Hy.

    La diagonale di H contiene i leverage score, che misurano quanto ciascuna osservazione è geometricamente influente nello spazio delle covariate.

    Risoluzione con QR

    Per calcolare soluzioni stabili si preferisce spesso la fattorizzazione QR. Se A=QR, con Q a colonne ortonormali e R triangolare superiore, allora:

    \|Ax-b\|_2 = \|QRx-b\|_2.

    Poiché Q conserva le lunghezze nelle direzioni dello spazio colonna, il problema si riduce a:

    Rx^\ast=Q^Tb.

    Questa forma evita di costruire A^TA e sfrutta trasformazioni ortogonali, che sono numericamente più stabili. È il metodo standard quando A ha rango pieno e il problema non richiede una diagnosi fine delle direzioni quasi singolari.

    Risoluzione con SVD

    La decomposizione SVD è più costosa ma più informativa. Se:

    A=U\Sigma V^T,

    allora la pseudoinversa è:

    A^+=V\Sigma^+U^T,

    e la soluzione di norma minima è:

    x^\ast=A^+b.

    La SVD mostra quali direzioni del problema sono ben determinate e quali sono quasi non identificabili. Valori singolari molto piccoli indicano instabilità: piccoli errori nei dati possono produrre grandi variazioni nei coefficienti.

    In problemi mal condizionati si possono usare soglie sui valori singolari, troncamento della SVD o regolarizzazione.

    Minimi quadrati e regressione

    Nella regressione lineare si scrive:

    y=X\beta+\varepsilon,

    dove X è la matrice di progetto, \beta contiene i coefficienti e \varepsilon raccoglie gli errori. Lo stimatore OLS è:

    \widehat\beta = \operatorname*{arg\,min}_{\beta} \|X\beta-y\|_2^2.

    Se X ha rango pieno:

    \widehat\beta=(X^TX)^{-1}X^Ty.

    La regressione interpreta i minimi quadrati in termini statistici: residui, varianza stimata, intervalli di confidenza, test sui coefficienti, R quadro e diagnostica delle osservazioni influenti. Il teorema di Gauss-Markov precisa le ipotesi sotto cui OLS è il miglior stimatore lineare non distorto.

    Residui e diagnostica

    I residui:

    \widehat\varepsilon=y-\widehat y =(I-H)y

    misurano ciò che il modello non spiega. Nei modelli con intercetta, i residui sono ortogonali alla colonna costante e quindi la loro somma è nulla:

    \sum_i \widehat\varepsilon_i=0.

    La diagnostica non deve guardare solo la grandezza del residuo. Un punto può avere residuo moderato ma leverage molto alto; oppure può avere residuo grande ma posizione geometrica ordinaria. Per questo si usano quantità come:

    QuantitàLettura
    residuo standardizzatoresiduo scalato rispetto alla variabilità attesa
    leverage scoreposizione estrema nello spazio dei regressori
    distanza di Cookinfluenza complessiva sul fit
    R^2quota di variabilità spiegata dal modello

    Una buona soluzione ai minimi quadrati non è solo un vettore di coefficienti: include il controllo dei residui, dei punti influenti e della coerenza del modello con i dati.

    Varianti

    I minimi quadrati hanno molte estensioni:

    VarianteObiettivo
    minimi quadrati pesatidare peso diverso alle osservazioni
    minimi quadrati generalizzatigestire errori correlati o eteroschedastici
    ridge regressionstabilizzare coefficienti con penalità quadratica
    minimi quadrati non linearistimare parametri in modelli non lineari
    regressione robustaridurre la sensibilità agli outlier

    Nei minimi quadrati pesati, con matrice di pesi W simmetrica definita positiva, il criterio diventa:

    \min_x (Ax-b)^T W (Ax-b).

    Nella ridge regression si aggiunge una penalità:

    \min_x \|Ax-b\|_2^2+\lambda\|x\|_2^2, \qquad \lambda\ge0.

    La penalità riduce la varianza dei coefficienti e aiuta quando le colonne di A sono quasi dipendenti, come nei casi di multicollinearità.

    Applicazioni

    I minimi quadrati compaiono in:

    • taratura di strumenti e sensori;
    • identificazione di parametri fisici;
    • fitting di curve e superfici;
    • regressione statistica;
    • ricostruzione di segnali;
    • stima di traiettorie e orbite;
    • fotogrammetria e geodesia;
    • controllo qualità e analisi sperimentale;
    • machine learning lineare.

    La forza del metodo è la combinazione di interpretazione geometrica, calcolo efficiente e collegamento statistico. Il limite è che l’errore quadratico premia modelli con residui medi piccoli ma può reagire male a outlier, dati mal scalati o modelli strutturalmente sbagliati.

    Errori comuni

    Il primo errore è usare le equazioni normali come se fossero sempre il modo migliore per calcolare la soluzione. Sono fondamentali teoricamente, ma in presenza di cattivo condizionamento conviene usare QR o SVD.

    Il secondo errore è leggere un residuo piccolo come prova che il modello sia corretto. Un modello può adattarsi bene ai dati osservati e restare inadatto fuori campione, oppure può nascondere struttura nei residui.

    Un altro errore è ignorare rango e scala delle colonne. Variabili con unità molto diverse, colonne quasi dipendenti e osservazioni ad alta leva possono dominare il risultato. Prima di interpretare i coefficienti bisogna controllare condizionamento, residui e influenza.

    Vedi anche: Problema sovradeterminato, Equazioni normali, Pseudoinversa, Proiezione ortogonale, Fattorizzazione QR, Decomposizione SVD, Regressione lineare, Matrice hat, Leverage score e minimi quadrati e regressione numerica: esercizi.

    Ultimo aggiornamento: