Regressione lineare semplice: esercizi svolti

Indice dei contenuti

    La regressione lineare semplice cerca la retta y=b_0+b_1 x che meglio descrive la relazione tra una variabile esplicativa x e una risposta y. I coefficienti si ottengono con il metodo dei minimi quadrati, minimizzando la somma dei quadrati dei residui. Questa scheda allena il calcolo dei coefficienti, della bontà del fit e delle previsioni.

    1. Pendenza con i minimi quadrati

    Esercizio. Dati (x,y): (1,2),(2,4),(3,5),(4,4),(5,6). Calcolare la pendenza b_1.

    Passo 1 — medie: \bar x=3, \bar y=(2+4+5+4+6)/5=21/5=4{,}2.

    Passo 2 — somme degli scarti. \displaystyle S_{xy}=\sum(x_i-\bar x)(y_i-\bar y) e \displaystyle S_{xx}=\sum(x_i-\bar x)^2:

    \begin{aligned} S_{xy} &=(-2)(-2{,}2)+(-1)(-0{,}2)+0+1(-0{,}2)+2(1{,}8)\\ &=4{,}4+0{,}2+0-0{,}2+3{,}6\\ &=8{,}0. \end{aligned}

    S_{xx}=4+1+0+1+4=10.

    Passo 3 — pendenza:

    b_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{8{,}0}{10}=0{,}80.

    La pendenza dice di quanto cambia y per ogni unità di x: qui +0{,}8 per unità.

    2. Intercetta

    Esercizio. Per gli stessi dati, calcolare l’intercetta b_0.

    La retta dei minimi quadrati passa per (\bar x,\bar y), quindi:

    b_0=\bar y-b_1\bar x=4{,}2-0{,}80\times3=4{,}2-2{,}4=1{,}8.

    Equazione della retta: \hat y=1{,}8+0{,}8\,x. L’intercetta è il valore previsto per x=0 (da interpretare con cautela se x=0 è fuori dall’intervallo dei dati).

    3. Previsione

    Esercizio. Usare la retta per prevedere y quando x=6.

    \hat y=1{,}8+0{,}8\times6=1{,}8+4{,}8=6{,}6.

    La previsione a x=6 è 6{,}6. Attenzione: x=6 è poco oltre i dati (x\le5); previsioni lontane dall’intervallo osservato (estrapolazione) sono rischiose.

    4. Residui

    Esercizio. Calcolare il residuo nel punto (4,4).

    Il residuo è la differenza tra osservato e previsto. Previsto: \hat y=1{,}8+0{,}8\times4=5{,}0:

    e=y-\hat y=4-5{,}0=-1{,}0.

    Residuo negativo: il modello sovrastima quel punto. La somma di tutti i residui dei minimi quadrati è zero per costruzione.

    5. Coefficiente di correlazione

    Esercizio. Calcolare il coefficiente di correlazione r tra x e y.

    Serve il valore di S_{yy}:

    \begin{aligned} S_{yy} &=\sum(y_i-\bar y)^2\\ &=(-2{,}2)^2+(-0{,}2)^2+(0{,}8)^2+(-0{,}2)^2+(1{,}8)^2\\ &=4{,}84+0{,}04+0{,}64+0{,}04+3{,}24\\ &=8{,}8. \end{aligned}

    Quindi:

    \begin{aligned} r &=\dfrac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}}\\ &=\dfrac{8{,}0}{\sqrt{10\times8{,}8}}\\ &=\dfrac{8{,}0}{\sqrt{88}}\\ &=\dfrac{8{,}0}{9{,}38} =0{,}853. \end{aligned}

    r=0{,}85: correlazione lineare positiva forte. Il segno di r coincide sempre con quello della pendenza.

    6. Coefficiente di determinazione

    Esercizio. Calcolare R^2 e interpretarlo.

    Per la regressione semplice R^2=r^2:

    R^2=(0{,}853)^2=0{,}727.

    Il 72{,}7\% della variabilità di y è spiegato dalla relazione lineare con x; il restante 27\% è residuo (rumore o non linearità). R^2 va da 0 (nessun fit) a 1 (fit perfetto).

    7. Decomposizione della varianza

    Esercizio. Verificare R^2 tramite la scomposizione SS_{tot}=SS_{reg}+SS_{res}.

    Passo 1 — varianza totale: SS_{tot}=S_{yy}=8{,}8.

    Passo 2 — varianza spiegata: SS_{reg}=b_1\,S_{xy}=0{,}80\times8{,}0=6{,}4.

    Passo 3 — R^2:

    R^2=\dfrac{SS_{reg}}{SS_{tot}}=\dfrac{6{,}4}{8{,}8}=0{,}727.

    Coerente col punto 6. Il residuo SS_{res}=8{,}8-6{,}4=2{,}4 è la parte non spiegata: la regressione “divide” la variabilità totale in spiegata e residua.

    8. Varianza residua e errore standard della regressione

    Esercizio. Per i dati precedenti, stimare la varianza dell’errore e l’errore standard residuo.

    Dalla scomposizione del punto 7:

    SS_{res}=2{,}4.

    Nella regressione lineare semplice si stimano due parametri, b_0 e b_1, quindi i gradi di libertà residui sono n-2. Con n=5:

    \hat\sigma^2=\dfrac{SS_{res}}{n-2}=\dfrac{2{,}4}{3}=0{,}8.

    L’errore standard residuo è

    s=\sqrt{0{,}8}=0{,}894.

    Questo valore misura la deviazione tipica dei punti rispetto alla retta, nelle unità della variabile y.

    9. Test sulla pendenza

    Esercizio. Testare H_0:\beta_1=0 contro H_1:\beta_1\neq0 al livello \alpha=0{,}05.

    Dal punto 1 abbiamo b_1=0{,}80 e S_{xx}=10. Dal punto 8, s=0{,}894. L’errore standard della pendenza è

    SE(b_1)=\dfrac{s}{\sqrt{S_{xx}}} =\dfrac{0{,}894}{\sqrt{10}} =0{,}283.

    La statistica test è

    t=\dfrac{b_1-0}{SE(b_1)} =\dfrac{0{,}80}{0{,}283} =2{,}83.

    I gradi di libertà sono n-2=3. Il valore critico bilaterale al 5\% è circa

    t_{0{,}975,3}=3{,}182.

    Poiché 2{,}83<3{,}182, non si rifiuta H_0 al 5\%. Il campione è molto piccolo: anche una correlazione apparentemente forte può non bastare per una conclusione inferenziale solida.

    10. Intervallo per la risposta media e previsione

    Esercizio. Calcolare, per x_0=3, un intervallo al 95\% per la risposta media e confrontarlo con un intervallo di previsione per una nuova osservazione.

    Il punto x_0=3 coincide con \bar x. La risposta stimata è

    \hat y_0=1{,}8+0{,}8\cdot3=4{,}2.

    L’errore standard della risposta media è

    SE_\text{media} =s\sqrt{\dfrac{1}{n}+\dfrac{(x_0-\bar x)^2}{S_{xx}}} =0{,}894\sqrt{\dfrac{1}{5}+0} =0{,}400.

    Con t_{0{,}975,3}=3{,}182:

    4{,}2\pm3{,}182\cdot0{,}400 =4{,}2\pm1{,}27 \quad\Rightarrow\quad [2{,}93,\ 5{,}47].

    Per una nuova osservazione bisogna aggiungere anche la variabilità individuale:

    SE_\text{pred} =s\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\bar x)^2}{S_{xx}}} =0{,}894\sqrt{1{,}2} =0{,}980.

    Quindi

    4{,}2\pm3{,}182\cdot0{,}980 =4{,}2\pm3{,}12 \quad\Rightarrow\quad [1{,}08,\ 7{,}32].

    L’intervallo di previsione è più ampio: stimare una media condizionata è più facile che prevedere un singolo nuovo dato.

    Errori comuni

    • Confondere correlazione e causalità. Un r alto indica associazione lineare, non che x causi y.
    • Estrapolare fuori dai dati. Il modello vale nell’intervallo osservato; previsioni lontane non sono garantite.
    • Interpretare R^2 basso come “modello sbagliato”. Un R^2 basso può indicare rumore elevato o una relazione non lineare: vanno guardati i residui.
    • Scambiare x e y. La retta di y su x è diversa da quella di x su y: la pendenza dipende da quale variabile è la risposta.
    • Confondere intervallo di confidenza e previsione. Il primo riguarda la media della risposta, il secondo una nuova osservazione e quindi è più largo.
    • Ignorare i gradi di libertà residui. Nei test sulla regressione semplice si usano n-2 gradi di libertà, non n-1.

    Ultimo aggiornamento: