Verifica delle ipotesi: test parametrici, esercizi svolti

La verifica delle ipotesi è la procedura con cui si decide, sulla base di un campione, se rifiutare un’affermazione sul parametro (l’ipotesi nulla $H_0$ ). Si fissa un livello di significatività $\alpha$ , si calcola una statistica test e si confronta con un valore critico o si valuta il p-value. Questa scheda allena i test classici sulla media e sulla proporzione.

1. Impostazione delle ipotesi

Esercizio. Un produttore dichiara che i pezzi pesano in media $100$ g. Si vuole verificare se il peso è diverso. Scrivere $H_0$ e $H_1$ .

$H_0:\ \mu=100\quad\text{(nessuna differenza)},\qquad H_1:\ \mu\ne100\quad\text{(differenza, test bilaterale)}.$

$H_0$ è sempre l’ipotesi di “status quo” o uguaglianza; $H_1$ è ciò che si vuole dimostrare. “Diverso da” → test a due code.

2. Errori di prima e seconda specie

Esercizio. Definire i due tipi di errore e collegarli ad $\alpha$ e alla potenza.

\begin{array}{c|cc} & H_0\ \text{vera} & H_0\ \text{falsa}\\\hline \text{rifiuto }H_0 & \text{errore I (}\alpha\text{)} & \text{corretto (potenza)}\\ \text{accetto }H_0 & \text{corretto} & \text{errore II (}\beta\text{)} \end{array}

Errore I ( $\alpha$ ): rifiutare $H_0$ vera (falso allarme);
Errore II ( $\beta$ ): non rifiutare $H_0$ falsa;
Potenza $=1-\beta$ : probabilità di rifiutare correttamente.

Ridurre $\alpha$ aumenta $\beta$ a parità di $n$ : è il compromesso tra i due errori.

3. Z-test sulla media (varianza nota)

Esercizio. $n=49$ pezzi, $\bar x=98{,}5$ g, $\sigma=4$ g noto. Verificare $H_0:\mu=100$ contro $H_1:\mu\ne100$ a $\alpha=0{,}05$ .

Passo 1 — statistica test:

$z=\dfrac{\bar x-\mu_0}{\sigma/\sqrt n}=\dfrac{98{,}5-100}{4/\sqrt{49}}=\dfrac{-1{,}5}{4/7}=\dfrac{-1{,}5}{0{,}571}=-2{,}63.$

Passo 2 — valore critico (bilaterale, $\alpha=0{,}05$ ): $\pm z_{0{,}975}=\pm1{,}96$ .

Passo 3 — decisione: $|{-2{,}63}|=2{,}63>1{,}96$ → si rifiuta $H_0$ . Il peso medio è significativamente diverso da $100$ g.

4. P-value

Esercizio. Calcolare il p-value del test del punto 3 e interpretarlo.

Il p-value è la probabilità (sotto $H_0$ ) di osservare un valore altrettanto o più estremo. Test bilaterale con $z=-2{,}63$ :

$p=2\,P(Z<-2{,}63)=2\times0{,}0043=0{,}0086.$

$p=0{,}0086<\alpha=0{,}05$ → si rifiuta $H_0$ (coerente col punto 3). Regola: si rifiuta quando $p<\alpha$ . Il p-value piccolo indica dati poco compatibili con $H_0$ .

5. T-test sulla media (varianza ignota)

Esercizio. $n=10$ , $\bar x=52$ , $s=5$ (campionaria). Verificare $H_0:\mu=50$ contro $H_1:\mu>50$ a $\alpha=0{,}05$ .

Passo 1 — statistica t:

$t=\dfrac{\bar x-\mu_0}{s/\sqrt n}=\dfrac{52-50}{5/\sqrt{10}}=\dfrac{2}{1{,}581}=1{,}265.$

Passo 2 — valore critico (a una coda, $\nu=9$ ): $t_{0{,}95,9}=1{,}833$ .

Passo 3 — decisione: $1{,}265<1{,}833$ → non si rifiuta $H_0$ . Non c’è evidenza sufficiente che $\mu>50$ .

Con $\sigma$ ignoto e $n$ piccolo si usa la $t$ ; test " $>$ " → una sola coda.

6. Test a una coda vs due code

Esercizio. Spiegare l’effetto sul valore critico passando da test bilaterale a unilaterale, a parità di $\alpha=0{,}05$ .

Bilaterale ( $H_1:\mu\ne\mu_0$ ): $\alpha$ si divide nelle due code, critico $z=1{,}96$ ;
Unilaterale ( $H_1:\mu>\mu_0$ ): tutto $\alpha$ in una coda, critico $z=1{,}645$ .

Il test a una coda ha valore critico più basso ( $1{,}645<1{,}96$ ): è più potente nella direzione ipotizzata, ma va scelto prima di vedere i dati, in base alla domanda.

7. Test su una proporzione

Esercizio. Si afferma che il $30\%$ degli utenti preferisce il prodotto A. Su $n=200$ , $66$ lo preferiscono. Verificare $H_0:p=0{,}30$ contro $H_1:p\ne0{,}30$ a $\alpha=0{,}05$ .

Passo 1 — stima: $\hat p=66/200=0{,}33$ .

Passo 2 — statistica test (errore standard sotto $H_0$ , con $p_0=0{,}30$ ):

\begin{aligned} z&=\dfrac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}\\ &=\dfrac{0{,}33-0{,}30}{\sqrt{0{,}30\times0{,}70/200}}\\ &=\dfrac{0{,}03}{\sqrt{0{,}00105}} =\dfrac{0{,}03}{0{,}0324}\\ &=0{,}926. \end{aligned}

Passo 3 — decisione: $|0{,}926|<1{,}96$ → non si rifiuta $H_0$ . La differenza tra $33\%$ e $30\%$ non è statisticamente significativa con questo campione.

Nota: nel test (a differenza dell’intervallo) l’errore standard usa $p_0$ ipotizzato, non $\hat p$ .

8. Test t per due campioni indipendenti

Esercizio. Due macchine producono pezzi con campioni indipendenti:

n_1=12,\quad \bar x_1=101,\quad s_1=4, \qquad n_2=10,\quad \bar x_2=96,\quad s_2=5.

Verificare se le medie differiscono, usando il test t di Welch a $\alpha=0{,}05$ .

Le ipotesi sono

H_0:\mu_1-\mu_2=0,\qquad H_1:\mu_1-\mu_2\ne0.

La statistica è

t=\dfrac{\bar x_1-\bar x_2}{\sqrt{s_1^2/n_1+s_2^2/n_2}} =\dfrac{101-96}{\sqrt{16/12+25/10}}.

L’errore standard vale

\sqrt{1{,}333+2{,}5}=\sqrt{3{,}833}=1{,}958,

quindi

t=\dfrac{5}{1{,}958}=2{,}55.

Con l’approssimazione di Welch i gradi di libertà sono circa $17$ . Il valore critico bilaterale al $5\%$ è circa $2{,}11$ . Poiché

2{,}55>2{,}11,

si rifiuta $H_0$ : c’è evidenza di differenza tra le medie.

9. Test t per dati appaiati

Esercizio. Su $6$ componenti si misura il consumo prima e dopo una regolazione. Le differenze “dopo - prima” sono

-2,\ -1,\ 0,\ -3,\ -1,\ -2.

Verificare se la regolazione riduce il consumo medio.

Per dati appaiati si lavora sulle differenze $D$ . Qui vogliamo

H_0:\mu_D=0,\qquad H_1:\mu_D<0.

La media delle differenze è

\bar d=\dfrac{-2-1+0-3-1-2}{6}=-1{,}5.

Gli scarti da $-1{,}5$ sono $-0{,}5,\ 0{,}5,\ 1{,}5,\ -1{,}5,\ 0{,}5,\ -0{,}5$ ; i quadrati sommano

0{,}25+0{,}25+2{,}25+2{,}25+0{,}25+0{,}25=5{,}5.

Quindi

s_d^2=\dfrac{5{,}5}{5}=1{,}1,\qquad s_d=1{,}049.

La statistica è

t=\dfrac{\bar d-0}{s_d/\sqrt n} =\dfrac{-1{,}5}{1{,}049/\sqrt6} =-3{,}50.

Con $\nu=5$ e test a una coda, il critico al $5\%$ è circa $-2{,}015$ . Poiché $-3{,}50<-2{,}015$ , si rifiuta $H_0$ : i dati indicano una riduzione media.

La struttura appaiata è essenziale: non sono due campioni indipendenti, sono misure sugli stessi componenti.

10. Collegamento tra test e intervallo di confidenza

Esercizio. Un test bilaterale al $5\%$ su una media produce un intervallo di confidenza al $95\%$ pari a $[48{,}2,\ 51{,}7]$ . Si rifiuta $H_0:\mu=50$ ?

Per un test bilaterale al livello $\alpha=0{,}05$ , la decisione è coerente con l’intervallo di confidenza al $95\%$ :

se il valore ipotizzato è fuori dall’intervallo, si rifiuta $H_0$ ;
se è dentro l’intervallo, non si rifiuta $H_0$ .

Qui $50\in[48{,}2,\ 51{,}7]$ , quindi non si rifiuta $H_0$ .

L’intervallo dice anche quali valori del parametro sono plausibili alla stessa soglia del test: non solo una decisione sì/no, ma una misura dell’incertezza.

Errori comuni

Confondere $\alpha$ e p-value. $\alpha$ è la soglia fissata prima; il p-value è calcolato dai dati. Si rifiuta quando $p<\alpha$ .
“Accettare $H_0$ ”. Non rifiutare $H_0$ non la dimostra: significa solo assenza di evidenza sufficiente contro di essa.
Scegliere la coda dopo aver visto i dati. La direzione del test va decisa a priori; sceglierla a posteriori gonfia il tasso di errore I.
Usare $\hat p$ nell’errore standard del test di proporzione. Sotto $H_0$ si usa $p_0$ ipotizzato; $\hat p$ si usa solo per l’intervallo di confidenza.
Trattare dati appaiati come indipendenti. Nei prima/dopo si testa la media delle differenze, non la differenza tra due campioni separati.
Usare il test pooled senza verificare varianze simili. Quando le varianze campionarie sono diverse, Welch è la scelta più robusta.