Analisi della varianza (ANOVA): esercizi svolti

Indice dei contenuti

    L’analisi della varianza (ANOVA) confronta le medie di tre o più gruppi per stabilire se almeno una differisce. L’idea: scomporre la variabilità totale in una parte tra i gruppi (effetto del fattore) e una dentro i gruppi (errore casuale), e confrontarle con la statistica F. Questa scheda costruisce la tabella ANOVA a una via passo per passo.

    Ipotesi: H_0:\mu_1=\mu_2=\dots=\mu_k contro H_1: almeno una media diversa.

    1. Medie di gruppo e media generale

    Esercizio. Tre gruppi (k=3), n=3 ciascuno. A: 4,5,6; B: 7,8,9; C: 6,6,9. Calcolare medie di gruppo e media generale.

    \bar x_A=\dfrac{4+5+6}{3}=5,\quad \bar x_B=\dfrac{7+8+9}{3}=8,\quad \bar x_C=\dfrac{6+6+9}{3}=7.

    Media generale (tutte le 9 osservazioni):

    \bar x=\dfrac{15+24+21}{9}=\dfrac{60}{9}=6{,}67.

    Le medie di gruppo differiscono: l’ANOVA dirà se la differenza è significativa o spiegabile dal caso.

    2. Devianza tra i gruppi (SSB)

    Esercizio. Calcolare la somma dei quadrati tra i gruppi.

    SSB pesa lo scarto di ogni media di gruppo dalla media generale, per la numerosità del gruppo:

    SSB=\sum_j n_j(\bar x_j-\bar x)^2=3[(5-6{,}67)^2+(8-6{,}67)^2+(7-6{,}67)^2].

    SSB=3[(-1{,}67)^2+(1{,}33)^2+(0{,}33)^2]=3[2{,}79+1{,}77+0{,}11]=3\times4{,}67=14{,}0.

    SSB misura quanto le medie di gruppo si discostano: è la variabilità “spiegata” dal fattore.

    3. Devianza dentro i gruppi (SSW)

    Esercizio. Calcolare la somma dei quadrati dentro i gruppi.

    SSW somma gli scarti di ogni dato dalla propria media di gruppo:

    SSW=\sum_j\sum_i (x_{ij}-\bar x_j)^2.

    • A: (4-5)^2+(5-5)^2+(6-5)^2=1+0+1=2;
    • B: (7-8)^2+(8-8)^2+(9-8)^2=1+0+1=2;
    • C: (6-7)^2+(6-7)^2+(9-7)^2=1+1+4=6.

    SSW=2+2+6=10{,}0.

    SSW è la variabilità “residua” interna ai gruppi: l’errore casuale non spiegato dal fattore.

    4. Verifica della scomposizione

    Esercizio. Verificare che SST=SSB+SSW.

    La devianza totale è la somma dei quadrati di tutti i dati dalla media generale. Per la scomposizione fondamentale dell’ANOVA:

    SST=SSB+SSW=14{,}0+10{,}0=24{,}0.

    Questa identità è il cuore dell’ANOVA: la variabilità totale si separa esattamente in tra-gruppi più dentro-gruppi.

    5. Gradi di libertà

    Esercizio. Calcolare i gradi di libertà di SSB e SSW (k=3, N=9).

    \nu_B=k-1=3-1=2,\qquad \nu_W=N-k=9-3=6.

    Verifica: \nu_B+\nu_W=2+6=8=N-1 (gradi di libertà totali). I gradi di libertà ripartiscono come le devianze.

    6. Quadrati medi e statistica F

    Esercizio. Calcolare i quadrati medi e la statistica F.

    I quadrati medi sono le devianze divise per i rispettivi gradi di libertà:

    MSB=\dfrac{SSB}{\nu_B}=\dfrac{14{,}0}{2}=7{,}0,\qquad MSW=\dfrac{SSW}{\nu_W}=\dfrac{10{,}0}{6}=1{,}67.

    La statistica F è il loro rapporto:

    F=\dfrac{MSB}{MSW}=\dfrac{7{,}0}{1{,}67}=4{,}19.

    F grande significa che la variabilità tra i gruppi supera quella interna: indizio di differenze reali tra le medie.

    7. Decisione e tabella ANOVA

    Esercizio. Completare la tabella ANOVA e decidere a \alpha=0{,}05 (F_{0{,}05;2,6}=5{,}14).

    \begin{array}{l|ccccc} \text{Sorgente} & SS & \nu & MS & F\\\hline \text{Tra gruppi} & 14{,}0 & 2 & 7{,}0 & 4{,}19\\ \text{Dentro} & 10{,}0 & 6 & 1{,}67 &\\ \text{Totale} & 24{,}0 & 8 & & \end{array}

    Decisione: F=4{,}19<F_{\text{crit}}=5{,}14non si rifiuta H_0. Con questi dati le differenze tra le medie non sono statisticamente significative al 5\%, pur essendo numericamente visibili. Servirebbe un campione più grande per concludere.

    8. Dimensione dell’effetto: eta quadrato

    Esercizio. Per l’ANOVA precedente, calcolare \eta^2 e interpretarlo.

    Una misura semplice della dimensione dell’effetto è

    \eta^2=\dfrac{SSB}{SST}.

    Con SSB=14{,}0 e SST=24{,}0:

    \eta^2=\dfrac{14}{24}=0{,}583.

    Circa il 58{,}3\% della variabilità totale è associato alle differenze tra gruppi. Questo non contraddice la decisione del punto 7: con pochi dati l’effetto può apparire grande ma non superare la soglia di significatività.

    Il test F risponde alla domanda “c’è evidenza statistica?”; \eta^2 risponde alla domanda “quanto è grande l’effetto nel campione?“.

    9. ANOVA con gruppi di numerosità diversa

    Esercizio. Due gruppi hanno medie \bar x_1=10, \bar x_2=14 e numerosità n_1=5, n_2=15. Calcolare la media generale e spiegare perché non è la media semplice delle due medie.

    La media generale è pesata sulle numerosità:

    \bar x=\dfrac{n_1\bar x_1+n_2\bar x_2}{n_1+n_2} =\dfrac{5\cdot10+15\cdot14}{20} =\dfrac{50+210}{20} =13.

    La media semplice delle due medie sarebbe

    \dfrac{10+14}{2}=12,

    ma sarebbe sbagliata perché il secondo gruppo contiene il triplo delle osservazioni del primo. Nell’ANOVA con gruppi sbilanciati, ogni media di gruppo va pesata con la propria numerosità.

    10. Interpretazione post-hoc

    Esercizio. Se un’ANOVA su quattro gruppi rifiuta H_0, possiamo concludere direttamente che il gruppo 1 differisce dal gruppo 2?

    No. L’ANOVA globale testa:

    H_0:\mu_1=\mu_2=\mu_3=\mu_4.

    Il rifiuto dice solo che almeno una media è diversa da almeno un’altra. Non identifica quali coppie differiscono.

    Per individuare le coppie si usano confronti post-hoc, per esempio Tukey, Bonferroni o metodi analoghi. Questi controllano l’errore complessivo dovuto ai molti confronti.

    Se si facessero tutti i t-test a coppie senza correzione, con 4 gruppi ci sarebbero

    \binom42=6

    confronti: il rischio di falso positivo crescerebbe oltre il livello \alpha dichiarato.

    11. Ipotesi operative dell’ANOVA

    Esercizio. Elencare le ipotesi pratiche da controllare prima di usare un’ANOVA a una via.

    Le ipotesi principali sono:

    • osservazioni indipendenti;
    • residui approssimativamente normali dentro ciascun gruppo;
    • varianze dei gruppi comparabili (omoscedasticità);
    • dati quantitativi e gruppi definiti prima dell’analisi.

    In pratica si guardano grafici dei residui, box-plot per gruppo, test di omogeneità delle varianze quando necessario, e soprattutto il disegno sperimentale. L’ANOVA è robusta a piccole deviazioni dalla normalità, ma è molto sensibile a dipendenza tra osservazioni e forte eteroschedasticità con campioni sbilanciati.

    Errori comuni

    • Usare più t-test invece dell’ANOVA. Confrontare i gruppi a coppie con molti t-test gonfia l’errore di tipo I; l’ANOVA controlla \alpha globalmente.
    • Confondere SSB e SSW. SSB usa le medie di gruppo vs media generale; SSW usa i dati vs la propria media di gruppo.
    • Sbagliare i gradi di libertà. \nu_B=k-1, \nu_W=N-k: confonderli falsa i quadrati medi e quindi F.
    • Fermarsi al rifiuto globale. L’ANOVA dice “almeno una media differisce”, non quale: serve un test post-hoc (es. Tukey) per individuarla.
    • Mediare le medie non pesate con gruppi sbilanciati. La media generale usa tutte le osservazioni, quindi pesa le medie di gruppo per n_j.
    • Confondere significatività e dimensione dell’effetto. Un p-value riguarda evidenza contro H_0; \eta^2 descrive quanta variabilità è associata al fattore.

    Ultimo aggiornamento: