Analisi della varianza (ANOVA): esercizi svolti

L’analisi della varianza (ANOVA) confronta le medie di tre o più gruppi per stabilire se almeno una differisce. L’idea: scomporre la variabilità totale in una parte tra i gruppi (effetto del fattore) e una dentro i gruppi (errore casuale), e confrontarle con la statistica $F$ . Questa scheda costruisce la tabella ANOVA a una via passo per passo.

Ipotesi: $H_0:\mu_1=\mu_2=\dots=\mu_k$ contro $H_1$ : almeno una media diversa.

1. Medie di gruppo e media generale

Esercizio. Tre gruppi (k=3), $n=3$ ciascuno. A: $4,5,6$ ; B: $7,8,9$ ; C: $6,6,9$ . Calcolare medie di gruppo e media generale.

$\bar x_A=\dfrac{4+5+6}{3}=5,\quad \bar x_B=\dfrac{7+8+9}{3}=8,\quad \bar x_C=\dfrac{6+6+9}{3}=7.$

Media generale (tutte le 9 osservazioni):

$\bar x=\dfrac{15+24+21}{9}=\dfrac{60}{9}=6{,}67.$

Le medie di gruppo differiscono: l’ANOVA dirà se la differenza è significativa o spiegabile dal caso.

2. Devianza tra i gruppi (SSB)

Esercizio. Calcolare la somma dei quadrati tra i gruppi.

$SSB$ pesa lo scarto di ogni media di gruppo dalla media generale, per la numerosità del gruppo:

$SSB=\sum_j n_j(\bar x_j-\bar x)^2=3[(5-6{,}67)^2+(8-6{,}67)^2+(7-6{,}67)^2].$

$SSB=3[(-1{,}67)^2+(1{,}33)^2+(0{,}33)^2]=3[2{,}79+1{,}77+0{,}11]=3\times4{,}67=14{,}0.$

$SSB$ misura quanto le medie di gruppo si discostano: è la variabilità “spiegata” dal fattore.

3. Devianza dentro i gruppi (SSW)

Esercizio. Calcolare la somma dei quadrati dentro i gruppi.

$SSW$ somma gli scarti di ogni dato dalla propria media di gruppo:

$SSW=\sum_j\sum_i (x_{ij}-\bar x_j)^2.$

A: $(4-5)^2+(5-5)^2+(6-5)^2=1+0+1=2$ ;
B: $(7-8)^2+(8-8)^2+(9-8)^2=1+0+1=2$ ;
C: $(6-7)^2+(6-7)^2+(9-7)^2=1+1+4=6$ .

$SSW=2+2+6=10{,}0.$

$SSW$ è la variabilità “residua” interna ai gruppi: l’errore casuale non spiegato dal fattore.

4. Verifica della scomposizione

Esercizio. Verificare che $SST=SSB+SSW$ .

La devianza totale è la somma dei quadrati di tutti i dati dalla media generale. Per la scomposizione fondamentale dell’ANOVA:

$SST=SSB+SSW=14{,}0+10{,}0=24{,}0.$

Questa identità è il cuore dell’ANOVA: la variabilità totale si separa esattamente in tra-gruppi più dentro-gruppi.

5. Gradi di libertà

Esercizio. Calcolare i gradi di libertà di $SSB$ e $SSW$ ( $k=3$ , $N=9$ ).

$\nu_B=k-1=3-1=2,\qquad \nu_W=N-k=9-3=6.$

Verifica: $\nu_B+\nu_W=2+6=8=N-1$ (gradi di libertà totali). I gradi di libertà ripartiscono come le devianze.

6. Quadrati medi e statistica F

Esercizio. Calcolare i quadrati medi e la statistica $F$ .

I quadrati medi sono le devianze divise per i rispettivi gradi di libertà:

$MSB=\dfrac{SSB}{\nu_B}=\dfrac{14{,}0}{2}=7{,}0,\qquad MSW=\dfrac{SSW}{\nu_W}=\dfrac{10{,}0}{6}=1{,}67.$

La statistica $F$ è il loro rapporto:

$F=\dfrac{MSB}{MSW}=\dfrac{7{,}0}{1{,}67}=4{,}19.$

$F$ grande significa che la variabilità tra i gruppi supera quella interna: indizio di differenze reali tra le medie.

7. Decisione e tabella ANOVA

Esercizio. Completare la tabella ANOVA e decidere a $\alpha=0{,}05$ ( $F_{0{,}05;2,6}=5{,}14$ ).

\begin{array}{l|ccccc} \text{Sorgente} & SS & \nu & MS & F\\\hline \text{Tra gruppi} & 14{,}0 & 2 & 7{,}0 & 4{,}19\\ \text{Dentro} & 10{,}0 & 6 & 1{,}67 &\\ \text{Totale} & 24{,}0 & 8 & & \end{array}

Decisione: $F=4{,}19<F_{\text{crit}}=5{,}14$ → non si rifiuta $H_0$ . Con questi dati le differenze tra le medie non sono statisticamente significative al $5\%$ , pur essendo numericamente visibili. Servirebbe un campione più grande per concludere.

8. Dimensione dell’effetto: eta quadrato

Esercizio. Per l’ANOVA precedente, calcolare $\eta^2$ e interpretarlo.

Una misura semplice della dimensione dell’effetto è

\eta^2=\dfrac{SSB}{SST}.

Con $SSB=14{,}0$ e $SST=24{,}0$ :

\eta^2=\dfrac{14}{24}=0{,}583.

Circa il $58{,}3\%$ della variabilità totale è associato alle differenze tra gruppi. Questo non contraddice la decisione del punto 7: con pochi dati l’effetto può apparire grande ma non superare la soglia di significatività.

Il test $F$ risponde alla domanda “c’è evidenza statistica?”; $\eta^2$ risponde alla domanda “quanto è grande l’effetto nel campione?“.

9. ANOVA con gruppi di numerosità diversa

Esercizio. Due gruppi hanno medie $\bar x_1=10$ , $\bar x_2=14$ e numerosità $n_1=5$ , $n_2=15$ . Calcolare la media generale e spiegare perché non è la media semplice delle due medie.

La media generale è pesata sulle numerosità:

\bar x=\dfrac{n_1\bar x_1+n_2\bar x_2}{n_1+n_2} =\dfrac{5\cdot10+15\cdot14}{20} =\dfrac{50+210}{20} =13.

La media semplice delle due medie sarebbe

\dfrac{10+14}{2}=12,

ma sarebbe sbagliata perché il secondo gruppo contiene il triplo delle osservazioni del primo. Nell’ANOVA con gruppi sbilanciati, ogni media di gruppo va pesata con la propria numerosità.

10. Interpretazione post-hoc

Esercizio. Se un’ANOVA su quattro gruppi rifiuta $H_0$ , possiamo concludere direttamente che il gruppo 1 differisce dal gruppo 2?

No. L’ANOVA globale testa:

H_0:\mu_1=\mu_2=\mu_3=\mu_4.

Il rifiuto dice solo che almeno una media è diversa da almeno un’altra. Non identifica quali coppie differiscono.

Per individuare le coppie si usano confronti post-hoc, per esempio Tukey, Bonferroni o metodi analoghi. Questi controllano l’errore complessivo dovuto ai molti confronti.

Se si facessero tutti i t-test a coppie senza correzione, con $4$ gruppi ci sarebbero

\binom42=6

confronti: il rischio di falso positivo crescerebbe oltre il livello $\alpha$ dichiarato.

11. Ipotesi operative dell’ANOVA

Esercizio. Elencare le ipotesi pratiche da controllare prima di usare un’ANOVA a una via.

Le ipotesi principali sono:

osservazioni indipendenti;
residui approssimativamente normali dentro ciascun gruppo;
varianze dei gruppi comparabili (omoscedasticità);
dati quantitativi e gruppi definiti prima dell’analisi.

In pratica si guardano grafici dei residui, box-plot per gruppo, test di omogeneità delle varianze quando necessario, e soprattutto il disegno sperimentale. L’ANOVA è robusta a piccole deviazioni dalla normalità, ma è molto sensibile a dipendenza tra osservazioni e forte eteroschedasticità con campioni sbilanciati.

Errori comuni

Usare più t-test invece dell’ANOVA. Confrontare i gruppi a coppie con molti t-test gonfia l’errore di tipo I; l’ANOVA controlla $\alpha$ globalmente.
Confondere $SSB$ e $SSW$ . $SSB$ usa le medie di gruppo vs media generale; $SSW$ usa i dati vs la propria media di gruppo.
Sbagliare i gradi di libertà. $\nu_B=k-1$ , $\nu_W=N-k$ : confonderli falsa i quadrati medi e quindi $F$ .
Fermarsi al rifiuto globale. L’ANOVA dice “almeno una media differisce”, non quale: serve un test post-hoc (es. Tukey) per individuarla.
Mediare le medie non pesate con gruppi sbilanciati. La media generale usa tutte le osservazioni, quindi pesa le medie di gruppo per $n_j$ .
Confondere significatività e dimensione dell’effetto. Un p-value riguarda evidenza contro $H_0$ ; $\eta^2$ descrive quanta variabilità è associata al fattore.