Errori standard robusti — ingegnerismo.it

Gli errori standard robusti sono correzioni della matrice di varianza-covarianza degli stimatori. Servono quando i coefficienti stimati restano utili, ma le ipotesi classiche usate per calcolare gli errori standard sono troppo rigide: eteroschedasticità, dipendenza entro cluster, sovradispersione o specificazioni non perfette della varianza.

Non cambiano in genere le stime dei coefficienti. Cambiano l’incertezza associata a quelle stime, quindi intervalli di confidenza, test e p-value.

Definizione

La forma generale viene spesso chiamata matrice sandwich, perché una matrice centrale di variabilità empirica è racchiusa tra due matrici che descrivono la curvatura o sensibilità del modello:

\widehat V_{\mathrm{rob}}(\widehat\beta) = B^{-1}MB^{-1}.

Oggetto	Formula	Significato
Stimatore	$\displaystyle \widehat\beta$	Coefficienti stimati dal modello.
Matrice robusta	$\displaystyle \widehat V_{\mathrm{rob}}(\widehat\beta)=B^{-1}MB^{-1}$	Varianza-covarianza corretta.
Bread	$\displaystyle B$	Informazione, curvatura o sensibilità del modello.
Meat	$\displaystyle M$	Variabilità empirica dei residui o degli score.
Errore standard robusto	$\displaystyle \operatorname{se}_{\mathrm{rob}}(\widehat\beta_j)=\sqrt{\widehat V_{\mathrm{rob},jj}}$	Incertezza corretta del coefficiente $\displaystyle j$ .

Il nome “robusto” non significa che il modello sia automaticamente giusto. Significa che l’inferenza è meno dipendente da alcune ipotesi sulla varianza.

Caso lineare

Nel modello lineare stimato con minimi quadrati, la correzione robusta all’eteroschedasticità sostituisce la varianza costante con una matrice costruita dai residui:

\widehat V_{\mathrm{HC}}(\widehat\beta) = (X^TX)^{-1}X^T\widehat\Omega X(X^TX)^{-1}.

Una scelta base è $\widehat\Omega=\operatorname{diag}(\widehat e_i^2)$ , con varianti finite-campione come HC1, HC2 e HC3.

Versione	Idea	Quando è usata
Omoschedastica classica	$\displaystyle \widehat\sigma^2(X^TX)^{-1}$	Valida se la varianza degli errori è costante.
HC0	$\displaystyle \widehat\Omega=\operatorname{diag}(\widehat e_i^2)$	Correzione base di White per eteroschedasticità.
HC1	$\displaystyle \dfrac{n}{n-p}\widehat e_i^2$	Correzione semplice per gradi di libertà.
HC3	$\displaystyle \dfrac{\widehat e_i^2}{(1-h_{ii})^2}$	Più prudente con osservazioni ad alto leverage.

Queste correzioni sono frequenti dopo test come Breusch-Pagan o White, ma non richiedono che il test abbia rifiutato: spesso si usano direttamente quando l’eteroschedasticità è plausibile.

Cluster e dipendenza

Se le osservazioni sono indipendenti tra gruppi ma dipendenti dentro lo stesso gruppo, si usano errori standard cluster-robust. L’unità di indipendenza diventa il cluster, non la singola osservazione.

Situazione	Correzione	Interpretazione
Eteroschedasticità	$\displaystyle \widehat V_{\mathrm{HC}}$	Varianza diversa da osservazione a osservazione.
Cluster	$\displaystyle \widehat V_{\mathrm{CR}}$	Dipendenza arbitraria dentro gruppi indipendenti tra loro.
Serie temporale	$\displaystyle \widehat V_{\mathrm{HAC}}$	Correzione per eteroschedasticità e autocorrelazione.
Conteggi sovradispersi	$\displaystyle \widehat{\operatorname{se}}(\widehat\beta)$ corretti	Inferenza più prudente senza cambiare la media stimata.

In presenza di cluster, il numero rilevante per l’affidabilità asintotica non è solo il numero di osservazioni, ma il numero di gruppi indipendenti. Pochi cluster rendono la correzione instabile.

Confronto con modelli alternativi

Approccio	Che cosa cambia	Limite principale
Errori standard robusti	$\displaystyle \widehat V(\widehat\beta)$	Correggono l’inferenza, non la struttura media.
Quasi-Poisson	$\displaystyle \operatorname{Var}(Y\mid X)=\phi\mu$	Assume una forma media-varianza specifica.
Binomiale negativa	$\displaystyle \operatorname{Var}(Y\mid X)=\mu+\alpha\mu^2$	Cambia la distribuzione del conteggio.
Poisson a effetti casuali	$\displaystyle Y_{ij}\mid U_j\sim\operatorname{Poisson}(U_j\lambda_{ij})$	Richiede una struttura di gruppo modellabile.
Regressione robusta	Funzione obiettivo o perdita	Riduce influenza degli outlier, non solo gli errori standard.

La distinzione è importante: gli errori standard robusti non sono un metodo per “riparare” coefficienti distorti da variabili omesse, non linearità gravi o campionamento sbagliato.

Errori comuni

Pensare che correggano il modello: correggono l’incertezza stimata, non necessariamente la media, la causalità o la qualità predittiva.
Usarli con pochi cluster: le approssimazioni cluster-robust richiedono un numero sufficiente di gruppi indipendenti.
Ignorare la scala del problema: una correzione robusta può allargare molto gli intervalli, cambiando le decisioni operative.
Confonderli con regressione robusta: la regressione robusta modifica la stima dei coefficienti per ridurre l’influenza degli outlier.
Usarli al posto di un modello migliore: se esistono zeri strutturali, gruppi evidenti o offset mancanti, vanno affrontati nel modello.

Vedi anche: eteroschedasticità, matrice sandwich, teorema di Gauss-Markov, regressione robusta, sovradispersione, regressione quasi-Poisson, regressione binomiale negativa, modello di Poisson a effetti casuali, offset nei modelli lineari generalizzati.