Regressione robusta — ingegnerismo.it

La regressione robusta raccoglie metodi di stima progettati per ridurre l’influenza di outlier, code pesanti, errori di misura, punti influenti e violazioni delle ipotesi gaussiane. È un’alternativa o un complemento alla regressione lineare stimata con minimi quadrati ordinari, quando pochi dati anomali rischiano di spostare in modo eccessivo coefficienti, predizioni e inferenza.

Il punto non è “ignorare” i dati scomodi. La regressione robusta cerca di stimare una relazione centrale più stabile quando il campione è contaminato o quando il modello normale ideale è troppo fragile. Un dato estremo può essere un errore, un regime fisico reale, un segnale di modello incompleto o una osservazione rara ma importante: il metodo robusto riduce l’influenza automatica, ma non sostituisce la diagnostica.

1. Perché i minimi quadrati sono sensibili

Nel modello lineare:

y_i=x_i^T\beta+\varepsilon_i

i minimi quadrati ordinari stimano $\beta$ minimizzando la somma dei residui quadratici:

\widehat\beta_{\mathrm{OLS}} = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} r_i^2

dove:

r_i=y_i-x_i^T\beta

Il quadrato rende il problema matematicamente elegante, differenziabile e con una soluzione chiusa in molti casi. Ma amplifica i residui grandi: un residuo dieci volte più grande pesa cento volte di più nella funzione obiettivo.

Questa proprietà è desiderabile se gli errori sono davvero gaussiani, indipendenti e con varianza costante. Diventa pericolosa se pochi residui grandi derivano da contaminazione, errori di misura, code pesanti o osservazioni non rappresentative.

2. Idea generale della robustezza

La regressione robusta modifica la funzione obiettivo, i pesi o la procedura di stima per limitare l’effetto delle osservazioni estreme. Una forma generale è:

\widehat\beta = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} \rho\!\left(\dfrac{r_i}{s}\right)

dove $\rho$ è una funzione di perdita meno aggressiva della perdita quadratica per residui grandi, e $s$ è una scala robusta dei residui.

La scelta di $\rho$ determina il comportamento:

Perdita	Effetto
quadratica	efficiente sotto normalità, sensibile agli outlier
assoluta	più robusta, collegata alla mediana
Huber	quadratica vicino a zero, lineare in coda
Tukey biweight	limita fino ad annullare l’influenza dei residui molto grandi

3. Perdita di Huber

Uno degli esempi più usati è lo stimatore di Huber. Per un residuo standardizzato $u=r/s$ , la perdita è:

\rho_c(u)= \begin{cases} \dfrac{1}{2}u^2, & \lvert u\rvert \le c,\\ c\lvert u\rvert-\dfrac{1}{2}c^2, & \lvert u\rvert \gt c. \end{cases}

Vicino a zero si comporta come i minimi quadrati: piccoli errori vengono trattati in modo efficiente. In coda cresce in modo lineare: un residuo molto grande continua a pesare, ma non domina tutta la stima.

La derivata della perdita, detta funzione di influenza elementare o score robusto, è:

\psi_c(u)= \begin{cases} u, & \lvert u\rvert \le c,\\ c\,\operatorname{sign}(u), & \lvert u\rvert \gt c. \end{cases}

Questa saturazione è il cuore della robustezza: oltre una soglia, aumentare ulteriormente la distanza del punto non aumenta indefinitamente la forza con cui quel punto tira la retta.

4. Pesi iterativi

Molti stimatori robusti si calcolano come minimi quadrati pesati iterativi. A ogni iterazione si assegna un peso:

w_i=\dfrac{\psi(u_i)}{u_i}

e si risolve un problema pesato:

\widehat\beta = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n} w_i r_i^2

Per la perdita di Huber, in forma semplificata:

w_i=\min\left(1,\dfrac{c}{\lvert u_i\rvert}\right)

I residui piccoli hanno peso circa unitario; i residui grandi vengono ridimensionati. Questo rende il procedimento intuitivo: non si rimuovono automaticamente i dati estremi, ma si impedisce loro di controllare da soli il modello.

5. Outlier verticale, leverage e influenza

In regressione non tutti gli outlier sono uguali. Un outlier verticale ha un valore $y_i$ lontano dalla tendenza del modello, ma covariate non particolarmente estreme. Un punto ad alta leva ha invece covariate lontane dalla nuvola principale dei dati. La combinazione più critica è alta leva più residuo grande.

Tipo di punto	Effetto possibile
residuo alto, leva bassa	errore locale, spesso influenza limitata
residuo basso, leva alta	punto estremo ma coerente con il modello
residuo alto, leva alta	punto influente, può spostare molto la stima

Per questo la regressione robusta va letta insieme a strumenti diagnostici come leverage score, matrice hat, residuo standardizzato e distanza di Cook. Una perdita robusta sui residui verticali non risolve sempre il problema dei punti ad alta leva: servono diagnostica, trasformazioni, modelli alternativi o metodi ad alta robustezza.

6. LAD, mediana e regressione quantile

Un caso importante è la regressione LAD, least absolute deviations, che minimizza la somma dei valori assoluti:

\widehat\beta_{\mathrm{LAD}} = \operatorname*{arg\,min}_{\beta} \sum_{i=1}^{n}\lvert r_i\rvert

La perdita assoluta è meno sensibile ai residui estremi rispetto a quella quadratica. Nel caso senza regressori, minimizzare la somma degli scarti assoluti porta alla mediana, mentre minimizzare gli scarti quadratici porta alla media.

La regressione quantile generalizza questa idea: invece di stimare solo il centro condizionale, stima quantili condizionali diversi. È particolarmente utile quando la variabilità cambia lungo le covariate o quando interessa il comportamento delle code, non solo il valore medio.

7. Breakdown ed efficienza

Due criteri aiutano a valutare un metodo robusto.

Criterio	Significato
breakdown point	quota di contaminazione che il metodo può tollerare prima di produrre stime arbitrarie
efficienza	precisione relativa quando il modello ideale, per esempio gaussiano, è vero

Di solito esiste un compromesso. Un metodo molto efficiente sotto normalità può essere fragile con outlier; un metodo molto robusto può perdere precisione quando i dati sono davvero gaussiani e puliti. La scelta dipende dal rischio applicativo: in prove sperimentali costose, monitoraggio industriale o dati economici con code pesanti, perdere un po’ di efficienza può essere accettabile se si guadagna stabilità.

8. Inferenza e matrice sandwich

L’inferenza sui coefficienti robusti richiede attenzione. Nei minimi quadrati gaussiani, curvatura della funzione obiettivo e variabilità degli score coincidono in modo favorevole. Con perdite robuste, eteroschedasticità o modello non perfettamente specificato, questa coincidenza può non valere.

Per questo si usa spesso una matrice sandwich, che separa curvatura media e variabilità empirica:

\widehat{\operatorname{Var}}(\widehat\beta) = A^{-1}BA^{-1}

Questa struttura è concettualmente simile a quella degli errori standard robusti, ma non va confusa con essi. Gli errori standard robusti modificano soprattutto la stima dell’incertezza su coefficienti OLS; la regressione robusta modifica direttamente il criterio con cui i coefficienti vengono stimati.

9. Quando usarla

La regressione robusta è indicata quando:

Situazione	Motivo
pochi punti estremi alterano pendenza o intercetta	OLS è troppo sensibile ai residui grandi
errori con code pesanti	la perdita quadratica sovrappesa le code
dati sperimentali con possibili errori di misura	serve stima stabile prima della diagnosi fine
modelli industriali o economici con eventi rari	l’osservazione estrema non deve controllare tutto il fit
confronto tra fit ordinario e fit robusto	differenze forti segnalano fragilità del modello

Non è invece una scorciatoia per evitare il lavoro di modellazione. Se gli outlier indicano una variabile omessa, una relazione non lineare, un cambio di regime o un errore di unità di misura, il metodo robusto può attenuare il sintomo ma non correggere la causa.

10. Procedura pratica

Una procedura prudente è:

Passo	Controllo
1	stimare OLS e ispezionare residui, leverage e distanza di Cook
2	stimare un modello robusto con perdita coerente con il problema
3	confrontare coefficienti, predizioni e intervalli
4	identificare punti che cambiano molto tra OLS e robusto
5	decidere se correggere dati, cambiare modello o mantenere la stima robusta

Il confronto tra OLS e regressione robusta è spesso più informativo del singolo risultato robusto. Se le stime coincidono, il modello è probabilmente poco sensibile agli outlier. Se divergono, bisogna capire quali osservazioni guidano la differenza.

11. Errori comuni

L’errore principale è pensare che “robusto” significhi automaticamente “migliore”. Un metodo robusto è migliore rispetto a una classe di contaminazioni o violazioni del modello, non in assoluto.

Altri errori ricorrenti sono:

Errore	Correzione
Usare regressione robusta per nascondere dati scomodi	Documentare sempre gli outlier e la loro origine
Confondere regressione robusta ed errori standard robusti	La prima cambia la stima; i secondi cambiano l’inferenza
Ignorare i punti ad alta leva	Controllare leverage e influenza, non solo residui
Scegliere la soglia di Huber senza motivazione	Collegarla a scala, dominio e sensibilità desiderata
Cancellare automaticamente punti con peso basso	Verificare misura, processo e plausibilità fisica
Confrontare modelli solo con $R^2$	Guardare stabilità dei coefficienti, predizioni e residui

La regressione robusta è quindi uno strumento di modellazione prudente: protegge la stima da osservazioni che esercitano influenza sproporzionata, ma richiede comunque analisi dei dati, conoscenza del dominio e trasparenza sulle decisioni.

Vedi anche: outlier, minimi quadrati, regressione lineare, funzione di perdita, distanza di Cook, matrice sandwich, errori standard robusti e regressione quantile.