La regressione lineare semplice cerca la retta y=b_0+b_1 x che meglio descrive la relazione tra una variabile esplicativa x e una risposta y. I coefficienti si ottengono con il metodo dei minimi quadrati, minimizzando la somma dei quadrati dei residui. Questa scheda allena il calcolo dei coefficienti, della bontà del fit e delle previsioni.
1. Pendenza con i minimi quadrati
Esercizio. Dati (x,y): (1,2),(2,4),(3,5),(4,4),(5,6). Calcolare la pendenza b_1.
Passo 1 — medie: \bar x=3, \bar y=(2+4+5+4+6)/5=21/5=4{,}2.
Passo 2 — somme degli scarti. \displaystyle S_{xy}=\sum(x_i-\bar x)(y_i-\bar y) e \displaystyle S_{xx}=\sum(x_i-\bar x)^2:
S_{xx}=4+1+0+1+4=10.
Passo 3 — pendenza:
b_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{8{,}0}{10}=0{,}80.
La pendenza dice di quanto cambia y per ogni unità di x: qui +0{,}8 per unità.
2. Intercetta
Esercizio. Per gli stessi dati, calcolare l’intercetta b_0.
La retta dei minimi quadrati passa per (\bar x,\bar y), quindi:
b_0=\bar y-b_1\bar x=4{,}2-0{,}80\times3=4{,}2-2{,}4=1{,}8.
Equazione della retta: \hat y=1{,}8+0{,}8\,x. L’intercetta è il valore previsto per x=0 (da interpretare con cautela se x=0 è fuori dall’intervallo dei dati).
3. Previsione
Esercizio. Usare la retta per prevedere y quando x=6.
\hat y=1{,}8+0{,}8\times6=1{,}8+4{,}8=6{,}6.
La previsione a x=6 è 6{,}6. Attenzione: x=6 è poco oltre i dati (x\le5); previsioni lontane dall’intervallo osservato (estrapolazione) sono rischiose.
4. Residui
Esercizio. Calcolare il residuo nel punto (4,4).
Il residuo è la differenza tra osservato e previsto. Previsto: \hat y=1{,}8+0{,}8\times4=5{,}0:
e=y-\hat y=4-5{,}0=-1{,}0.
Residuo negativo: il modello sovrastima quel punto. La somma di tutti i residui dei minimi quadrati è zero per costruzione.
5. Coefficiente di correlazione
Esercizio. Calcolare il coefficiente di correlazione r tra x e y.
Serve il valore di S_{yy}:
Quindi:
r=0{,}85: correlazione lineare positiva forte. Il segno di r coincide sempre con quello della pendenza.
6. Coefficiente di determinazione
Esercizio. Calcolare R^2 e interpretarlo.
Per la regressione semplice R^2=r^2:
R^2=(0{,}853)^2=0{,}727.
Il 72{,}7\% della variabilità di y è spiegato dalla relazione lineare con x; il restante 27\% è residuo (rumore o non linearità). R^2 va da 0 (nessun fit) a 1 (fit perfetto).
7. Decomposizione della varianza
Esercizio. Verificare R^2 tramite la scomposizione SS_{tot}=SS_{reg}+SS_{res}.
Passo 1 — varianza totale: SS_{tot}=S_{yy}=8{,}8.
Passo 2 — varianza spiegata: SS_{reg}=b_1\,S_{xy}=0{,}80\times8{,}0=6{,}4.
Passo 3 — R^2:
R^2=\dfrac{SS_{reg}}{SS_{tot}}=\dfrac{6{,}4}{8{,}8}=0{,}727.
Coerente col punto 6. Il residuo SS_{res}=8{,}8-6{,}4=2{,}4 è la parte non spiegata: la regressione “divide” la variabilità totale in spiegata e residua.
8. Varianza residua e errore standard della regressione
Esercizio. Per i dati precedenti, stimare la varianza dell’errore e l’errore standard residuo.
Dalla scomposizione del punto 7:
Nella regressione lineare semplice si stimano due parametri, b_0 e b_1, quindi i gradi di libertà residui sono n-2. Con n=5:
L’errore standard residuo è
Questo valore misura la deviazione tipica dei punti rispetto alla retta, nelle unità della variabile y.
9. Test sulla pendenza
Esercizio. Testare H_0:\beta_1=0 contro H_1:\beta_1\neq0 al livello \alpha=0{,}05.
Dal punto 1 abbiamo b_1=0{,}80 e S_{xx}=10. Dal punto 8, s=0{,}894. L’errore standard della pendenza è
La statistica test è
I gradi di libertà sono n-2=3. Il valore critico bilaterale al 5\% è circa
Poiché 2{,}83<3{,}182, non si rifiuta H_0 al 5\%. Il campione è molto piccolo: anche una correlazione apparentemente forte può non bastare per una conclusione inferenziale solida.
10. Intervallo per la risposta media e previsione
Esercizio. Calcolare, per x_0=3, un intervallo al 95\% per la risposta media e confrontarlo con un intervallo di previsione per una nuova osservazione.
Il punto x_0=3 coincide con \bar x. La risposta stimata è
L’errore standard della risposta media è
Con t_{0{,}975,3}=3{,}182:
Per una nuova osservazione bisogna aggiungere anche la variabilità individuale:
Quindi
L’intervallo di previsione è più ampio: stimare una media condizionata è più facile che prevedere un singolo nuovo dato.
Errori comuni
- Confondere correlazione e causalità. Un r alto indica associazione lineare, non che x causi y.
- Estrapolare fuori dai dati. Il modello vale nell’intervallo osservato; previsioni lontane non sono garantite.
- Interpretare R^2 basso come “modello sbagliato”. Un R^2 basso può indicare rumore elevato o una relazione non lineare: vanno guardati i residui.
- Scambiare x e y. La retta di y su x è diversa da quella di x su y: la pendenza dipende da quale variabile è la risposta.
- Confondere intervallo di confidenza e previsione. Il primo riguarda la media della risposta, il secondo una nuova osservazione e quindi è più largo.
- Ignorare i gradi di libertà residui. Nei test sulla regressione semplice si usano n-2 gradi di libertà, non n-1.