L’eteroschedasticità è la situazione in cui la varianza degli errori non è costante tra le osservazioni. È un problema centrale nella regressione: la media può essere modellata in modo ragionevole, ma l’incertezza cambia con il livello dei predittori, con la scala del fenomeno o con gruppi di osservazioni.
Nel modello lineare classico, l’ipotesi opposta si chiama omoschedasticità:
Quando invece la varianza dipende dall’osservazione:
si parla di eteroschedasticità.
Definizione
| Caso | Formula | Interpretazione |
|---|---|---|
| Omoschedasticità | \displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2 | Tutti gli errori hanno la stessa varianza condizionata. |
| Eteroschedasticità | \displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma_i^2 | La varianza cambia tra osservazioni. |
| Varianza crescente | \displaystyle \sigma_i^2\uparrow al crescere di \displaystyle \widehat y_i | Residui più dispersi per valori fitted alti. |
| Varianza di gruppo | \displaystyle \sigma_g^2 | Ogni gruppo ha una scala di rumore diversa. |
Il fenomeno non riguarda solo la regressione lineare. Nei dati di conteggio, per esempio, la varianza cresce spesso con la media; nei GLM questa relazione viene modellata direttamente tramite la famiglia di distribuzione.
Effetti su OLS
Con le ipotesi appropriate sulla media, lo stimatore OLS può restare non distorto anche in presenza di eteroschedasticità. Il problema principale è l’inferenza: gli errori standard classici, i test t e gli intervalli di confidenza possono diventare troppo ottimistici o troppo conservativi.
| Aspetto | Con omoschedasticità | Con eteroschedasticità |
|---|---|---|
| Stima OLS | \displaystyle \widehat\beta lineare non distorta | Può restare non distorta se la media è corretta. |
| Varianza classica | \displaystyle \widehat\sigma^2(X^TX)^{-1} | Formula in genere non valida. |
| Test t e F | Basati su errori standard classici | Possono avere livello nominale sbagliato. |
| Efficienza | OLS è BLUE nel teorema di Gauss-Markov | OLS non è più necessariamente efficiente. |
Per questo l’eteroschedasticità non impone sempre di buttare via il modello, ma impone di leggere con cautela l’incertezza stimata.
Diagnostica
| Strumento | Segnale | Lettura |
|---|---|---|
| Residui vs fitted | Forma a ventaglio | La varianza cresce o diminuisce con la media stimata. |
| Residui vs covariata | Dispersione diversa lungo un predittore | La scala del rumore dipende da quella covariata. |
| Test di Breusch-Pagan | \displaystyle H_0:\sigma_i^2=\sigma^2 | Rifiuto: indizio di varianza non costante. |
| Test di White | \displaystyle H_0 di omoschedasticità | Test più generale, sensibile a forme non lineari. |
| Conoscenza del processo | Errore proporzionale alla scala | Indizio sostanziale, spesso più utile del solo test. |
I test sono utili, ma non sostituiscono il grafico dei residui e la conoscenza del processo. Con campioni grandi anche deviazioni piccole possono risultare significative; con campioni piccoli, invece, i test hanno poca potenza.
Rimedi
| Rimedio | Che cosa fa | Quando usarlo |
|---|---|---|
| Errori standard robusti | Corregge \displaystyle \widehat{\operatorname{se}}(\widehat\beta) | Quando la media è plausibile ma la varianza classica no. |
| Trasformazione della risposta | Cambia scala di \displaystyle Y | Quando la variabilità cresce proporzionalmente al livello. |
| WLS | Usa pesi \displaystyle w_i\propto\dfrac{1}{\sigma_i^2} | Quando la struttura della varianza è nota o stimabile. |
| GLM | Specifica media, link e varianza | Quando la risposta non è naturalmente gaussiana. |
| Modello gerarchico | Modella varianze o gruppi distinti | Quando la scala del rumore dipende da livelli o cluster. |
La soluzione dipende dallo scopo. Se l’obiettivo è inferenza sui coefficienti, gli errori standard robusti possono bastare. Se l’obiettivo è previsione probabilistica o modellazione del processo, conviene modellare esplicitamente la varianza.
Errori comuni
- Confonderla con non linearità: un pattern nei residui può indicare media sbagliata, varianza non costante o entrambe le cose.
- Guardare solo il p-value del test: la decisione deve includere grafici, scala del fenomeno e sensibilità del risultato.
- Pensare che OLS diventi sempre distorto: la distorsione dei coefficienti dipende dalla specificazione della media, non dalla sola eteroschedasticità.
- Ignorare l’efficienza: anche se OLS resta non distorto, può non essere il metodo più preciso.
- Applicare pesi senza giustificazione: pesi sbagliati possono peggiorare il modello invece di correggerlo.
Vedi anche: omoschedasticità, errori standard robusti, teorema di Gauss-Markov, regressione lineare, residuo standardizzato, modello lineare generalizzato, sovradispersione.