Eteroschedasticità

Indice dei contenuti

    L’eteroschedasticità è la situazione in cui la varianza degli errori non è costante tra le osservazioni. È un problema centrale nella regressione: la media può essere modellata in modo ragionevole, ma l’incertezza cambia con il livello dei predittori, con la scala del fenomeno o con gruppi di osservazioni.

    Nel modello lineare classico, l’ipotesi opposta si chiama omoschedasticità:

    \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2 \qquad \text{per ogni } i.

    Quando invece la varianza dipende dall’osservazione:

    \operatorname{Var}(\varepsilon_i\mid X)=\sigma_i^2,

    si parla di eteroschedasticità.

    Definizione

    CasoFormulaInterpretazione
    Omoschedasticità\displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma^2Tutti gli errori hanno la stessa varianza condizionata.
    Eteroschedasticità\displaystyle \operatorname{Var}(\varepsilon_i\mid X)=\sigma_i^2La varianza cambia tra osservazioni.
    Varianza crescente\displaystyle \sigma_i^2\uparrow al crescere di \displaystyle \widehat y_iResidui più dispersi per valori fitted alti.
    Varianza di gruppo\displaystyle \sigma_g^2Ogni gruppo ha una scala di rumore diversa.

    Il fenomeno non riguarda solo la regressione lineare. Nei dati di conteggio, per esempio, la varianza cresce spesso con la media; nei GLM questa relazione viene modellata direttamente tramite la famiglia di distribuzione.

    Effetti su OLS

    Con le ipotesi appropriate sulla media, lo stimatore OLS può restare non distorto anche in presenza di eteroschedasticità. Il problema principale è l’inferenza: gli errori standard classici, i test t e gli intervalli di confidenza possono diventare troppo ottimistici o troppo conservativi.

    AspettoCon omoschedasticitàCon eteroschedasticità
    Stima OLS\displaystyle \widehat\beta lineare non distortaPuò restare non distorta se la media è corretta.
    Varianza classica\displaystyle \widehat\sigma^2(X^TX)^{-1}Formula in genere non valida.
    Test t e FBasati su errori standard classiciPossono avere livello nominale sbagliato.
    EfficienzaOLS è BLUE nel teorema di Gauss-MarkovOLS non è più necessariamente efficiente.

    Per questo l’eteroschedasticità non impone sempre di buttare via il modello, ma impone di leggere con cautela l’incertezza stimata.

    Diagnostica

    StrumentoSegnaleLettura
    Residui vs fittedForma a ventaglioLa varianza cresce o diminuisce con la media stimata.
    Residui vs covariataDispersione diversa lungo un predittoreLa scala del rumore dipende da quella covariata.
    Test di Breusch-Pagan\displaystyle H_0:\sigma_i^2=\sigma^2Rifiuto: indizio di varianza non costante.
    Test di White\displaystyle H_0 di omoschedasticitàTest più generale, sensibile a forme non lineari.
    Conoscenza del processoErrore proporzionale alla scalaIndizio sostanziale, spesso più utile del solo test.

    I test sono utili, ma non sostituiscono il grafico dei residui e la conoscenza del processo. Con campioni grandi anche deviazioni piccole possono risultare significative; con campioni piccoli, invece, i test hanno poca potenza.

    Rimedi

    RimedioChe cosa faQuando usarlo
    Errori standard robustiCorregge \displaystyle \widehat{\operatorname{se}}(\widehat\beta)Quando la media è plausibile ma la varianza classica no.
    Trasformazione della rispostaCambia scala di \displaystyle YQuando la variabilità cresce proporzionalmente al livello.
    WLSUsa pesi \displaystyle w_i\propto\dfrac{1}{\sigma_i^2}Quando la struttura della varianza è nota o stimabile.
    GLMSpecifica media, link e varianzaQuando la risposta non è naturalmente gaussiana.
    Modello gerarchicoModella varianze o gruppi distintiQuando la scala del rumore dipende da livelli o cluster.

    La soluzione dipende dallo scopo. Se l’obiettivo è inferenza sui coefficienti, gli errori standard robusti possono bastare. Se l’obiettivo è previsione probabilistica o modellazione del processo, conviene modellare esplicitamente la varianza.

    Errori comuni

    • Confonderla con non linearità: un pattern nei residui può indicare media sbagliata, varianza non costante o entrambe le cose.
    • Guardare solo il p-value del test: la decisione deve includere grafici, scala del fenomeno e sensibilità del risultato.
    • Pensare che OLS diventi sempre distorto: la distorsione dei coefficienti dipende dalla specificazione della media, non dalla sola eteroschedasticità.
    • Ignorare l’efficienza: anche se OLS resta non distorto, può non essere il metodo più preciso.
    • Applicare pesi senza giustificazione: pesi sbagliati possono peggiorare il modello invece di correggerlo.

    Vedi anche: omoschedasticità, errori standard robusti, teorema di Gauss-Markov, regressione lineare, residuo standardizzato, modello lineare generalizzato, sovradispersione.

    Ultimo aggiornamento: