Eteroschedasticità — ingegnerismo.it

L’eteroschedasticità è la situazione in cui la varianza degli errori non è costante tra le osservazioni. È un problema centrale nella regressione: la media può essere modellata in modo ragionevole, ma l’incertezza cambia con il livello dei predittori, con la scala del fenomeno o con gruppi di osservazioni.

Nel modello lineare classico, l’ipotesi opposta si chiama omoschedasticità:

\operatorname{Var}(\varepsilon_i\mid X)=\sigma^2 \qquad \text{per ogni } i.

Quando invece la varianza dipende dall’osservazione:

\operatorname{Var}(\varepsilon_i\mid X)=\sigma_i^2,

si parla di eteroschedasticità.

Definizione

Caso	Formula	Interpretazione
Omoschedasticità	$\displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2$	Tutti gli errori hanno la stessa varianza condizionata.
Eteroschedasticità	$\displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma_i^2$	La varianza cambia tra osservazioni.
Varianza crescente	$\displaystyle \sigma_i^2\uparrow$ al crescere di $\displaystyle \widehat y_i$	Residui più dispersi per valori fitted alti.
Varianza di gruppo	$\displaystyle \sigma_g^2$	Ogni gruppo ha una scala di rumore diversa.

Il fenomeno non riguarda solo la regressione lineare. Nei dati di conteggio, per esempio, la varianza cresce spesso con la media; nei GLM questa relazione viene modellata direttamente tramite la famiglia di distribuzione.

Effetti su OLS

Con le ipotesi appropriate sulla media, lo stimatore OLS può restare non distorto anche in presenza di eteroschedasticità. Il problema principale è l’inferenza: gli errori standard classici, i test t e gli intervalli di confidenza possono diventare troppo ottimistici o troppo conservativi.

Aspetto	Con omoschedasticità	Con eteroschedasticità
Stima OLS	$\displaystyle \widehat\beta$ lineare non distorta	Può restare non distorta se la media è corretta.
Varianza classica	$\displaystyle \widehat\sigma^2(X^TX)^{-1}$	Formula in genere non valida.
Test t e F	Basati su errori standard classici	Possono avere livello nominale sbagliato.
Efficienza	OLS è BLUE nel teorema di Gauss-Markov	OLS non è più necessariamente efficiente.

Per questo l’eteroschedasticità non impone sempre di buttare via il modello, ma impone di leggere con cautela l’incertezza stimata.

Diagnostica

Strumento	Segnale	Lettura
Residui vs fitted	Forma a ventaglio	La varianza cresce o diminuisce con la media stimata.
Residui vs covariata	Dispersione diversa lungo un predittore	La scala del rumore dipende da quella covariata.
Test di Breusch-Pagan	$\displaystyle H_0:\sigma_i^2=\sigma^2$	Rifiuto: indizio di varianza non costante.
Test di White	$\displaystyle H_0$ di omoschedasticità	Test più generale, sensibile a forme non lineari.
Conoscenza del processo	Errore proporzionale alla scala	Indizio sostanziale, spesso più utile del solo test.

I test sono utili, ma non sostituiscono il grafico dei residui e la conoscenza del processo. Con campioni grandi anche deviazioni piccole possono risultare significative; con campioni piccoli, invece, i test hanno poca potenza.

Rimedi

Rimedio	Che cosa fa	Quando usarlo
Errori standard robusti	Corregge $\displaystyle \widehat{\operatorname{se}}(\widehat\beta)$	Quando la media è plausibile ma la varianza classica no.
Trasformazione della risposta	Cambia scala di $\displaystyle Y$	Quando la variabilità cresce proporzionalmente al livello.
WLS	Usa pesi $\displaystyle w_i\propto\dfrac{1}{\sigma_i^2}$	Quando la struttura della varianza è nota o stimabile.
GLM	Specifica media, link e varianza	Quando la risposta non è naturalmente gaussiana.
Modello gerarchico	Modella varianze o gruppi distinti	Quando la scala del rumore dipende da livelli o cluster.

La soluzione dipende dallo scopo. Se l’obiettivo è inferenza sui coefficienti, gli errori standard robusti possono bastare. Se l’obiettivo è previsione probabilistica o modellazione del processo, conviene modellare esplicitamente la varianza.

Errori comuni

Confonderla con non linearità: un pattern nei residui può indicare media sbagliata, varianza non costante o entrambe le cose.
Guardare solo il p-value del test: la decisione deve includere grafici, scala del fenomeno e sensibilità del risultato.
Pensare che OLS diventi sempre distorto: la distorsione dei coefficienti dipende dalla specificazione della media, non dalla sola eteroschedasticità.
Ignorare l’efficienza: anche se OLS resta non distorto, può non essere il metodo più preciso.
Applicare pesi senza giustificazione: pesi sbagliati possono peggiorare il modello invece di correggerlo.

Vedi anche: omoschedasticità, errori standard robusti, teorema di Gauss-Markov, regressione lineare, residuo standardizzato, modello lineare generalizzato, sovradispersione.