L’analisi della varianza (ANOVA) confronta le medie di tre o più gruppi per stabilire se almeno una differisce. L’idea: scomporre la variabilità totale in una parte tra i gruppi (effetto del fattore) e una dentro i gruppi (errore casuale), e confrontarle con la statistica F. Questa scheda costruisce la tabella ANOVA a una via passo per passo.
Ipotesi: H_0:\mu_1=\mu_2=\dots=\mu_k contro H_1: almeno una media diversa.
1. Medie di gruppo e media generale
Esercizio. Tre gruppi (k=3), n=3 ciascuno. A: 4,5,6; B: 7,8,9; C: 6,6,9. Calcolare medie di gruppo e media generale.
\bar x_A=\dfrac{4+5+6}{3}=5,\quad \bar x_B=\dfrac{7+8+9}{3}=8,\quad \bar x_C=\dfrac{6+6+9}{3}=7.
Media generale (tutte le 9 osservazioni):
\bar x=\dfrac{15+24+21}{9}=\dfrac{60}{9}=6{,}67.
Le medie di gruppo differiscono: l’ANOVA dirà se la differenza è significativa o spiegabile dal caso.
2. Devianza tra i gruppi (SSB)
Esercizio. Calcolare la somma dei quadrati tra i gruppi.
SSB pesa lo scarto di ogni media di gruppo dalla media generale, per la numerosità del gruppo:
SSB=\sum_j n_j(\bar x_j-\bar x)^2=3[(5-6{,}67)^2+(8-6{,}67)^2+(7-6{,}67)^2].
SSB=3[(-1{,}67)^2+(1{,}33)^2+(0{,}33)^2]=3[2{,}79+1{,}77+0{,}11]=3\times4{,}67=14{,}0.
SSB misura quanto le medie di gruppo si discostano: è la variabilità “spiegata” dal fattore.
3. Devianza dentro i gruppi (SSW)
Esercizio. Calcolare la somma dei quadrati dentro i gruppi.
SSW somma gli scarti di ogni dato dalla propria media di gruppo:
SSW=\sum_j\sum_i (x_{ij}-\bar x_j)^2.
- A: (4-5)^2+(5-5)^2+(6-5)^2=1+0+1=2;
- B: (7-8)^2+(8-8)^2+(9-8)^2=1+0+1=2;
- C: (6-7)^2+(6-7)^2+(9-7)^2=1+1+4=6.
SSW=2+2+6=10{,}0.
SSW è la variabilità “residua” interna ai gruppi: l’errore casuale non spiegato dal fattore.
4. Verifica della scomposizione
Esercizio. Verificare che SST=SSB+SSW.
La devianza totale è la somma dei quadrati di tutti i dati dalla media generale. Per la scomposizione fondamentale dell’ANOVA:
SST=SSB+SSW=14{,}0+10{,}0=24{,}0.
Questa identità è il cuore dell’ANOVA: la variabilità totale si separa esattamente in tra-gruppi più dentro-gruppi.
5. Gradi di libertà
Esercizio. Calcolare i gradi di libertà di SSB e SSW (k=3, N=9).
\nu_B=k-1=3-1=2,\qquad \nu_W=N-k=9-3=6.
Verifica: \nu_B+\nu_W=2+6=8=N-1 (gradi di libertà totali). I gradi di libertà ripartiscono come le devianze.
6. Quadrati medi e statistica F
Esercizio. Calcolare i quadrati medi e la statistica F.
I quadrati medi sono le devianze divise per i rispettivi gradi di libertà:
MSB=\dfrac{SSB}{\nu_B}=\dfrac{14{,}0}{2}=7{,}0,\qquad MSW=\dfrac{SSW}{\nu_W}=\dfrac{10{,}0}{6}=1{,}67.
La statistica F è il loro rapporto:
F=\dfrac{MSB}{MSW}=\dfrac{7{,}0}{1{,}67}=4{,}19.
F grande significa che la variabilità tra i gruppi supera quella interna: indizio di differenze reali tra le medie.
7. Decisione e tabella ANOVA
Esercizio. Completare la tabella ANOVA e decidere a \alpha=0{,}05 (F_{0{,}05;2,6}=5{,}14).
Decisione: F=4{,}19<F_{\text{crit}}=5{,}14 → non si rifiuta H_0. Con questi dati le differenze tra le medie non sono statisticamente significative al 5\%, pur essendo numericamente visibili. Servirebbe un campione più grande per concludere.
8. Dimensione dell’effetto: eta quadrato
Esercizio. Per l’ANOVA precedente, calcolare \eta^2 e interpretarlo.
Una misura semplice della dimensione dell’effetto è
Con SSB=14{,}0 e SST=24{,}0:
Circa il 58{,}3\% della variabilità totale è associato alle differenze tra gruppi. Questo non contraddice la decisione del punto 7: con pochi dati l’effetto può apparire grande ma non superare la soglia di significatività.
Il test F risponde alla domanda “c’è evidenza statistica?”; \eta^2 risponde alla domanda “quanto è grande l’effetto nel campione?“.
9. ANOVA con gruppi di numerosità diversa
Esercizio. Due gruppi hanno medie \bar x_1=10, \bar x_2=14 e numerosità n_1=5, n_2=15. Calcolare la media generale e spiegare perché non è la media semplice delle due medie.
La media generale è pesata sulle numerosità:
La media semplice delle due medie sarebbe
ma sarebbe sbagliata perché il secondo gruppo contiene il triplo delle osservazioni del primo. Nell’ANOVA con gruppi sbilanciati, ogni media di gruppo va pesata con la propria numerosità.
10. Interpretazione post-hoc
Esercizio. Se un’ANOVA su quattro gruppi rifiuta H_0, possiamo concludere direttamente che il gruppo 1 differisce dal gruppo 2?
No. L’ANOVA globale testa:
Il rifiuto dice solo che almeno una media è diversa da almeno un’altra. Non identifica quali coppie differiscono.
Per individuare le coppie si usano confronti post-hoc, per esempio Tukey, Bonferroni o metodi analoghi. Questi controllano l’errore complessivo dovuto ai molti confronti.
Se si facessero tutti i t-test a coppie senza correzione, con 4 gruppi ci sarebbero
confronti: il rischio di falso positivo crescerebbe oltre il livello \alpha dichiarato.
11. Ipotesi operative dell’ANOVA
Esercizio. Elencare le ipotesi pratiche da controllare prima di usare un’ANOVA a una via.
Le ipotesi principali sono:
- osservazioni indipendenti;
- residui approssimativamente normali dentro ciascun gruppo;
- varianze dei gruppi comparabili (omoscedasticità);
- dati quantitativi e gruppi definiti prima dell’analisi.
In pratica si guardano grafici dei residui, box-plot per gruppo, test di omogeneità delle varianze quando necessario, e soprattutto il disegno sperimentale. L’ANOVA è robusta a piccole deviazioni dalla normalità, ma è molto sensibile a dipendenza tra osservazioni e forte eteroschedasticità con campioni sbilanciati.
Errori comuni
- Usare più t-test invece dell’ANOVA. Confrontare i gruppi a coppie con molti t-test gonfia l’errore di tipo I; l’ANOVA controlla \alpha globalmente.
- Confondere SSB e SSW. SSB usa le medie di gruppo vs media generale; SSW usa i dati vs la propria media di gruppo.
- Sbagliare i gradi di libertà. \nu_B=k-1, \nu_W=N-k: confonderli falsa i quadrati medi e quindi F.
- Fermarsi al rifiuto globale. L’ANOVA dice “almeno una media differisce”, non quale: serve un test post-hoc (es. Tukey) per individuarla.
- Mediare le medie non pesate con gruppi sbilanciati. La media generale usa tutte le osservazioni, quindi pesa le medie di gruppo per n_j.
- Confondere significatività e dimensione dell’effetto. Un p-value riguarda evidenza contro H_0; \eta^2 descrive quanta variabilità è associata al fattore.