Regressione robusta

Indice dei contenuti

    La regressione robusta raccoglie metodi di stima progettati per ridurre l’influenza di outlier, code pesanti, errori di misura, punti influenti e violazioni delle ipotesi gaussiane. È un’alternativa o un complemento alla regressione lineare stimata con minimi quadrati ordinari, quando pochi dati anomali rischiano di spostare in modo eccessivo coefficienti, predizioni e inferenza.

    Il punto non è “ignorare” i dati scomodi. La regressione robusta cerca di stimare una relazione centrale più stabile quando il campione è contaminato o quando il modello normale ideale è troppo fragile. Un dato estremo può essere un errore, un regime fisico reale, un segnale di modello incompleto o una osservazione rara ma importante: il metodo robusto riduce l’influenza automatica, ma non sostituisce la diagnostica.

    1. Perché i minimi quadrati sono sensibili

    Nel modello lineare:

    y_i=x_i^T\beta+\varepsilon_i

    i minimi quadrati ordinari stimano \beta minimizzando la somma dei residui quadratici:

    \widehat\beta_{\mathrm{OLS}} = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} r_i^2

    dove:

    r_i=y_i-x_i^T\beta

    Il quadrato rende il problema matematicamente elegante, differenziabile e con una soluzione chiusa in molti casi. Ma amplifica i residui grandi: un residuo dieci volte più grande pesa cento volte di più nella funzione obiettivo.

    Questa proprietà è desiderabile se gli errori sono davvero gaussiani, indipendenti e con varianza costante. Diventa pericolosa se pochi residui grandi derivano da contaminazione, errori di misura, code pesanti o osservazioni non rappresentative.

    2. Idea generale della robustezza

    La regressione robusta modifica la funzione obiettivo, i pesi o la procedura di stima per limitare l’effetto delle osservazioni estreme. Una forma generale è:

    \widehat\beta = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} \rho\!\left(\dfrac{r_i}{s}\right)

    dove \rho è una funzione di perdita meno aggressiva della perdita quadratica per residui grandi, e s è una scala robusta dei residui.

    La scelta di \rho determina il comportamento:

    PerditaEffetto
    quadraticaefficiente sotto normalità, sensibile agli outlier
    assolutapiù robusta, collegata alla mediana
    Huberquadratica vicino a zero, lineare in coda
    Tukey biweightlimita fino ad annullare l’influenza dei residui molto grandi

    3. Perdita di Huber

    Uno degli esempi più usati è lo stimatore di Huber. Per un residuo standardizzato u=r/s, la perdita è:

    \rho_c(u)= \begin{cases} \dfrac{1}{2}u^2, & \lvert u\rvert \le c,\\ c\lvert u\rvert-\dfrac{1}{2}c^2, & \lvert u\rvert \gt c. \end{cases}

    Vicino a zero si comporta come i minimi quadrati: piccoli errori vengono trattati in modo efficiente. In coda cresce in modo lineare: un residuo molto grande continua a pesare, ma non domina tutta la stima.

    La derivata della perdita, detta funzione di influenza elementare o score robusto, è:

    \psi_c(u)= \begin{cases} u, & \lvert u\rvert \le c,\\ c\,\operatorname{sign}(u), & \lvert u\rvert \gt c. \end{cases}

    Questa saturazione è il cuore della robustezza: oltre una soglia, aumentare ulteriormente la distanza del punto non aumenta indefinitamente la forza con cui quel punto tira la retta.

    4. Pesi iterativi

    Molti stimatori robusti si calcolano come minimi quadrati pesati iterativi. A ogni iterazione si assegna un peso:

    w_i=\dfrac{\psi(u_i)}{u_i}

    e si risolve un problema pesato:

    \widehat\beta = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} w_i r_i^2

    Per la perdita di Huber, in forma semplificata:

    w_i=\min\left(1,\dfrac{c}{\lvert u_i\rvert}\right)

    I residui piccoli hanno peso circa unitario; i residui grandi vengono ridimensionati. Questo rende il procedimento intuitivo: non si rimuovono automaticamente i dati estremi, ma si impedisce loro di controllare da soli il modello.

    5. Outlier verticale, leverage e influenza

    In regressione non tutti gli outlier sono uguali. Un outlier verticale ha un valore y_i lontano dalla tendenza del modello, ma covariate non particolarmente estreme. Un punto ad alta leva ha invece covariate lontane dalla nuvola principale dei dati. La combinazione più critica è alta leva più residuo grande.

    Tipo di puntoEffetto possibile
    residuo alto, leva bassaerrore locale, spesso influenza limitata
    residuo basso, leva altapunto estremo ma coerente con il modello
    residuo alto, leva altapunto influente, può spostare molto la stima

    Per questo la regressione robusta va letta insieme a strumenti diagnostici come leverage score, matrice hat, residuo standardizzato e distanza di Cook. Una perdita robusta sui residui verticali non risolve sempre il problema dei punti ad alta leva: servono diagnostica, trasformazioni, modelli alternativi o metodi ad alta robustezza.

    6. LAD, mediana e regressione quantile

    Un caso importante è la regressione LAD, least absolute deviations, che minimizza la somma dei valori assoluti:

    \widehat\beta_{\mathrm{LAD}} = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n}\lvert r_i\rvert

    La perdita assoluta è meno sensibile ai residui estremi rispetto a quella quadratica. Nel caso senza regressori, minimizzare la somma degli scarti assoluti porta alla mediana, mentre minimizzare gli scarti quadratici porta alla media.

    La regressione quantile generalizza questa idea: invece di stimare solo il centro condizionale, stima quantili condizionali diversi. È particolarmente utile quando la variabilità cambia lungo le covariate o quando interessa il comportamento delle code, non solo il valore medio.

    7. Breakdown ed efficienza

    Due criteri aiutano a valutare un metodo robusto.

    CriterioSignificato
    breakdown pointquota di contaminazione che il metodo può tollerare prima di produrre stime arbitrarie
    efficienzaprecisione relativa quando il modello ideale, per esempio gaussiano, è vero

    Di solito esiste un compromesso. Un metodo molto efficiente sotto normalità può essere fragile con outlier; un metodo molto robusto può perdere precisione quando i dati sono davvero gaussiani e puliti. La scelta dipende dal rischio applicativo: in prove sperimentali costose, monitoraggio industriale o dati economici con code pesanti, perdere un po’ di efficienza può essere accettabile se si guadagna stabilità.

    8. Inferenza e matrice sandwich

    L’inferenza sui coefficienti robusti richiede attenzione. Nei minimi quadrati gaussiani, curvatura della funzione obiettivo e variabilità degli score coincidono in modo favorevole. Con perdite robuste, eteroschedasticità o modello non perfettamente specificato, questa coincidenza può non valere.

    Per questo si usa spesso una matrice sandwich, che separa curvatura media e variabilità empirica:

    \widehat{\operatorname{Var}}(\widehat\beta) = A^{-1}BA^{-1}

    Questa struttura è concettualmente simile a quella degli errori standard robusti, ma non va confusa con essi. Gli errori standard robusti modificano soprattutto la stima dell’incertezza su coefficienti OLS; la regressione robusta modifica direttamente il criterio con cui i coefficienti vengono stimati.

    9. Quando usarla

    La regressione robusta è indicata quando:

    SituazioneMotivo
    pochi punti estremi alterano pendenza o intercettaOLS è troppo sensibile ai residui grandi
    errori con code pesantila perdita quadratica sovrappesa le code
    dati sperimentali con possibili errori di misuraserve stima stabile prima della diagnosi fine
    modelli industriali o economici con eventi raril’osservazione estrema non deve controllare tutto il fit
    confronto tra fit ordinario e fit robustodifferenze forti segnalano fragilità del modello

    Non è invece una scorciatoia per evitare il lavoro di modellazione. Se gli outlier indicano una variabile omessa, una relazione non lineare, un cambio di regime o un errore di unità di misura, il metodo robusto può attenuare il sintomo ma non correggere la causa.

    10. Procedura pratica

    Una procedura prudente è:

    PassoControllo
    1stimare OLS e ispezionare residui, leverage e distanza di Cook
    2stimare un modello robusto con perdita coerente con il problema
    3confrontare coefficienti, predizioni e intervalli
    4identificare punti che cambiano molto tra OLS e robusto
    5decidere se correggere dati, cambiare modello o mantenere la stima robusta

    Il confronto tra OLS e regressione robusta è spesso più informativo del singolo risultato robusto. Se le stime coincidono, il modello è probabilmente poco sensibile agli outlier. Se divergono, bisogna capire quali osservazioni guidano la differenza.

    11. Errori comuni

    L’errore principale è pensare che “robusto” significhi automaticamente “migliore”. Un metodo robusto è migliore rispetto a una classe di contaminazioni o violazioni del modello, non in assoluto.

    Altri errori ricorrenti sono:

    ErroreCorrezione
    Usare regressione robusta per nascondere dati scomodiDocumentare sempre gli outlier e la loro origine
    Confondere regressione robusta ed errori standard robustiLa prima cambia la stima; i secondi cambiano l’inferenza
    Ignorare i punti ad alta levaControllare leverage e influenza, non solo residui
    Scegliere la soglia di Huber senza motivazioneCollegarla a scala, dominio e sensibilità desiderata
    Cancellare automaticamente punti con peso bassoVerificare misura, processo e plausibilità fisica
    Confrontare modelli solo con R^2Guardare stabilità dei coefficienti, predizioni e residui

    La regressione robusta è quindi uno strumento di modellazione prudente: protegge la stima da osservazioni che esercitano influenza sproporzionata, ma richiede comunque analisi dei dati, conoscenza del dominio e trasparenza sulle decisioni.

    Vedi anche: outlier, minimi quadrati, regressione lineare, funzione di perdita, distanza di Cook, matrice sandwich, errori standard robusti e regressione quantile.

    Ultimo aggiornamento: