Regressione lineare semplice: esercizi svolti

La regressione lineare semplice cerca la retta $y=b_0+b_1 x$ che meglio descrive la relazione tra una variabile esplicativa $x$ e una risposta $y$ . I coefficienti si ottengono con il metodo dei minimi quadrati, minimizzando la somma dei quadrati dei residui. Questa scheda allena il calcolo dei coefficienti, della bontà del fit e delle previsioni.

1. Pendenza con i minimi quadrati

Esercizio. Dati $(x,y)$ : $(1,2),(2,4),(3,5),(4,4),(5,6)$ . Calcolare la pendenza $b_1$ .

Passo 1 — medie: $\bar x=3$ , $\bar y=(2+4+5+4+6)/5=21/5=4{,}2$ .

Passo 2 — somme degli scarti. $\displaystyle S_{xy}=\sum(x_i-\bar x)(y_i-\bar y)$ e $\displaystyle S_{xx}=\sum(x_i-\bar x)^2$ :

\begin{aligned} S_{xy} &=(-2)(-2{,}2)+(-1)(-0{,}2)+0+1(-0{,}2)+2(1{,}8)\\ &=4{,}4+0{,}2+0-0{,}2+3{,}6\\ &=8{,}0. \end{aligned}

$S_{xx}=4+1+0+1+4=10.$

Passo 3 — pendenza:

$b_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{8{,}0}{10}=0{,}80.$

La pendenza dice di quanto cambia $y$ per ogni unità di $x$ : qui $+0{,}8$ per unità.

2. Intercetta

Esercizio. Per gli stessi dati, calcolare l’intercetta $b_0$ .

La retta dei minimi quadrati passa per $(\bar x,\bar y)$ , quindi:

$b_0=\bar y-b_1\bar x=4{,}2-0{,}80\times3=4{,}2-2{,}4=1{,}8.$

Equazione della retta: $\hat y=1{,}8+0{,}8\,x$ . L’intercetta è il valore previsto per $x=0$ (da interpretare con cautela se $x=0$ è fuori dall’intervallo dei dati).

3. Previsione

Esercizio. Usare la retta per prevedere $y$ quando $x=6$ .

$\hat y=1{,}8+0{,}8\times6=1{,}8+4{,}8=6{,}6.$

La previsione a $x=6$ è $6{,}6$ . Attenzione: $x=6$ è poco oltre i dati ( $x\le5$ ); previsioni lontane dall’intervallo osservato (estrapolazione) sono rischiose.

4. Residui

Esercizio. Calcolare il residuo nel punto $(4,4)$ .

Il residuo è la differenza tra osservato e previsto. Previsto: $\hat y=1{,}8+0{,}8\times4=5{,}0$ :

$e=y-\hat y=4-5{,}0=-1{,}0.$

Residuo negativo: il modello sovrastima quel punto. La somma di tutti i residui dei minimi quadrati è zero per costruzione.

5. Coefficiente di correlazione

Esercizio. Calcolare il coefficiente di correlazione $r$ tra $x$ e $y$ .

Serve il valore di $S_{yy}$ :

\begin{aligned} S_{yy} &=\sum(y_i-\bar y)^2\\ &=(-2{,}2)^2+(-0{,}2)^2+(0{,}8)^2+(-0{,}2)^2+(1{,}8)^2\\ &=4{,}84+0{,}04+0{,}64+0{,}04+3{,}24\\ &=8{,}8. \end{aligned}

Quindi:

\begin{aligned} r &=\dfrac{S_{xy}}{\sqrt{S_{xx}\,S_{yy}}}\\ &=\dfrac{8{,}0}{\sqrt{10\times8{,}8}}\\ &=\dfrac{8{,}0}{\sqrt{88}}\\ &=\dfrac{8{,}0}{9{,}38} =0{,}853. \end{aligned}

$r=0{,}85$ : correlazione lineare positiva forte. Il segno di $r$ coincide sempre con quello della pendenza.

6. Coefficiente di determinazione

Esercizio. Calcolare $R^2$ e interpretarlo.

Per la regressione semplice $R^2=r^2$ :

$R^2=(0{,}853)^2=0{,}727.$

Il $72{,}7\%$ della variabilità di $y$ è spiegato dalla relazione lineare con $x$ ; il restante $27\%$ è residuo (rumore o non linearità). $R^2$ va da 0 (nessun fit) a 1 (fit perfetto).

7. Decomposizione della varianza

Esercizio. Verificare $R^2$ tramite la scomposizione $SS_{tot}=SS_{reg}+SS_{res}$ .

Passo 1 — varianza totale: $SS_{tot}=S_{yy}=8{,}8$ .

Passo 2 — varianza spiegata: $SS_{reg}=b_1\,S_{xy}=0{,}80\times8{,}0=6{,}4$ .

Passo 3 — $R^2$ :

$R^2=\dfrac{SS_{reg}}{SS_{tot}}=\dfrac{6{,}4}{8{,}8}=0{,}727.$

Coerente col punto 6. Il residuo $SS_{res}=8{,}8-6{,}4=2{,}4$ è la parte non spiegata: la regressione “divide” la variabilità totale in spiegata e residua.

8. Varianza residua e errore standard della regressione

Esercizio. Per i dati precedenti, stimare la varianza dell’errore e l’errore standard residuo.

Dalla scomposizione del punto 7:

SS_{res}=2{,}4.

Nella regressione lineare semplice si stimano due parametri, $b_0$ e $b_1$ , quindi i gradi di libertà residui sono $n-2$ . Con $n=5$ :

\hat\sigma^2=\dfrac{SS_{res}}{n-2}=\dfrac{2{,}4}{3}=0{,}8.

L’errore standard residuo è

s=\sqrt{0{,}8}=0{,}894.

Questo valore misura la deviazione tipica dei punti rispetto alla retta, nelle unità della variabile $y$ .

9. Test sulla pendenza

Esercizio. Testare $H_0:\beta_1=0$ contro $H_1:\beta_1\neq0$ al livello $\alpha=0{,}05$ .

Dal punto 1 abbiamo $b_1=0{,}80$ e $S_{xx}=10$ . Dal punto 8, $s=0{,}894$ . L’errore standard della pendenza è

SE(b_1)=\dfrac{s}{\sqrt{S_{xx}}} =\dfrac{0{,}894}{\sqrt{10}} =0{,}283.

La statistica test è

t=\dfrac{b_1-0}{SE(b_1)} =\dfrac{0{,}80}{0{,}283} =2{,}83.

I gradi di libertà sono $n-2=3$ . Il valore critico bilaterale al $5\%$ è circa

t_{0{,}975,3}=3{,}182.

Poiché $2{,}83<3{,}182$ , non si rifiuta $H_0$ al $5\%$ . Il campione è molto piccolo: anche una correlazione apparentemente forte può non bastare per una conclusione inferenziale solida.

10. Intervallo per la risposta media e previsione

Esercizio. Calcolare, per $x_0=3$ , un intervallo al $95\%$ per la risposta media e confrontarlo con un intervallo di previsione per una nuova osservazione.

Il punto $x_0=3$ coincide con $\bar x$ . La risposta stimata è

\hat y_0=1{,}8+0{,}8\cdot3=4{,}2.

L’errore standard della risposta media è

SE_\text{media} =s\sqrt{\dfrac{1}{n}+\dfrac{(x_0-\bar x)^2}{S_{xx}}} =0{,}894\sqrt{\dfrac{1}{5}+0} =0{,}400.

Con $t_{0{,}975,3}=3{,}182$ :

4{,}2\pm3{,}182\cdot0{,}400 =4{,}2\pm1{,}27 \quad\Rightarrow\quad [2{,}93,\ 5{,}47].

Per una nuova osservazione bisogna aggiungere anche la variabilità individuale:

SE_\text{pred} =s\sqrt{1+\dfrac{1}{n}+\dfrac{(x_0-\bar x)^2}{S_{xx}}} =0{,}894\sqrt{1{,}2} =0{,}980.

Quindi

4{,}2\pm3{,}182\cdot0{,}980 =4{,}2\pm3{,}12 \quad\Rightarrow\quad [1{,}08,\ 7{,}32].

L’intervallo di previsione è più ampio: stimare una media condizionata è più facile che prevedere un singolo nuovo dato.

Errori comuni

Confondere correlazione e causalità. Un $r$ alto indica associazione lineare, non che $x$ causi $y$ .
Estrapolare fuori dai dati. Il modello vale nell’intervallo osservato; previsioni lontane non sono garantite.
Interpretare $R^2$ basso come “modello sbagliato”. Un $R^2$ basso può indicare rumore elevato o una relazione non lineare: vanno guardati i residui.
Scambiare $x$ e $y$ . La retta di $y$ su $x$ è diversa da quella di $x$ su $y$ : la pendenza dipende da quale variabile è la risposta.
Confondere intervallo di confidenza e previsione. Il primo riguarda la media della risposta, il secondo una nuova osservazione e quindi è più largo.
Ignorare i gradi di libertà residui. Nei test sulla regressione semplice si usano $n-2$ gradi di libertà, non $n-1$ .