Intervalli di confidenza: esercizi svolti

Un intervallo di confidenza fornisce, invece di un singolo numero, un range di valori plausibili per un parametro, con un livello di fiducia dichiarato (tipicamente $95\%$ ). La sua ampiezza dipende dalla variabilità dei dati e dalla numerosità del campione. Questa scheda costruisce intervalli per medie e proporzioni.

Forma generale: $\;\text{stima}\ \pm\ (\text{quantile})\times(\text{errore standard})$ .

1. Intervallo per la media, varianza nota

Esercizio. Campione di $n=36$ misure, media $\bar x=50$ , deviazione standard nota $\sigma=6$ . Intervallo di confidenza al $95\%$ per $\mu$ .

Con $\sigma$ noto si usa il quantile normale $z_{0{,}975}=1{,}96$ :

$\bar x\pm z\dfrac{\sigma}{\sqrt n}=50\pm1{,}96\times\dfrac{6}{\sqrt{36}}=50\pm1{,}96\times1=50\pm1{,}96.$

Intervallo: $[48{,}04,\ 51{,}96]$ . Interpretazione: il $95\%$ degli intervalli così costruiti contiene il vero $\mu$ (non ” $\mu$ ha il $95\%$ di probabilità di stare qui”).

2. Effetto del livello di confidenza

Esercizio. Per gli stessi dati, costruire l’intervallo al $99\%$ e confrontarlo.

Al $99\%$ il quantile è $z_{0{,}995}=2{,}576$ :

$50\pm2{,}576\times1=50\pm2{,}58\ \Rightarrow\ [47{,}42,\ 52{,}58].$

Più fiducia ⇒ intervallo più ampio: per essere più sicuri di contenere $\mu$ bisogna allargare. Confidenza e precisione sono in compromesso.

3. Intervallo per la media, varianza ignota

Esercizio. Campione di $n=16$ con $\bar x=20$ , deviazione standard campionaria $s=4$ . Intervallo al $95\%$ per $\mu$ .

Con $\sigma$ ignoto e stimato da $s$ si usa la t di Student con $n-1=15$ gradi di libertà, $t_{0{,}975,15}=2{,}131$ :

$\bar x\pm t\dfrac{s}{\sqrt n}=20\pm2{,}131\times\dfrac{4}{\sqrt{16}}=20\pm2{,}131\times1=20\pm2{,}13.$

Intervallo: $[17{,}87,\ 22{,}13]$ . La $t$ ha code più pesanti della normale: il quantile $2{,}131>1{,}96$ compensa l’incertezza sulla stima di $\sigma$ .

4. Convergenza della t alla normale

Esercizio. Spiegare perché con $n$ grande si può usare $z$ al posto di $t$ .

I gradi di libertà della $t$ aumentano con $n$ ; al crescere di essi la $t$ si avvicina alla normale:

$t_{0{,}975,\ \nu}\xrightarrow{\nu\to\infty}z_{0{,}975}=1{,}96.$

Per $\nu\ge30$ la differenza è trascurabile (es. $t_{0{,}975,30}=2{,}042$ ). Con campioni grandi l’incertezza su $\sigma$ è piccola e $z$ è una buona approssimazione.

5. Intervallo per una proporzione

Esercizio. Su $n=400$ pezzi, $k=60$ difettosi. Intervallo al $95\%$ per la proporzione di difettosi $p$ .

Passo 1 — stima puntuale: $\hat p=k/n=60/400=0{,}15$ .

Passo 2 — errore standard (approssimazione normale):

$SE=\sqrt{\dfrac{\hat p(1-\hat p)}{n}}=\sqrt{\dfrac{0{,}15\times0{,}85}{400}}=\sqrt{\dfrac{0{,}1275}{400}}=\sqrt{0{,}000319}=0{,}0179.$

Passo 3 — intervallo:

$0{,}15\pm1{,}96\times0{,}0179=0{,}15\pm0{,}035\ \Rightarrow\ [0{,}115,\ 0{,}185].$

L’approssimazione normale per la proporzione è valida quando $n\hat p$ e $n(1-\hat p)$ sono entrambi $\ge5$ : qui $60$ e $340$ , ampiamente soddisfatto.

6. Margine d’errore e dimensione del campione (media)

Esercizio. Quante misure servono per stimare $\mu$ con margine d’errore $E=0{,}5$ al $95\%$ , sapendo $\sigma=4$ ?

Il margine d’errore è $E=z\,\sigma/\sqrt n$ ; si risolve per $n$ :

$n=\left(\dfrac{z\,\sigma}{E}\right)^2=\left(\dfrac{1{,}96\times4}{0{,}5}\right)^2=(15{,}68)^2=246.$

Servono almeno $246$ misure. Per dimezzare il margine d’errore servono quattro volte più dati: la precisione costa.

7. Dimensione del campione per una proporzione

Esercizio. Quanti intervistati servono per stimare una proporzione con margine $E=0{,}03$ al $95\%$ , senza stima preliminare di $p$ ?

Senza informazione su $p$ si usa il caso peggiore $p=0{,}5$ (massima varianza):

$n=\dfrac{z^2\,p(1-p)}{E^2}=\dfrac{1{,}96^2\times0{,}25}{0{,}03^2}=\dfrac{3{,}8416\times0{,}25}{0{,}0009}=\dfrac{0{,}9604}{0{,}0009}=1068.$

Servono circa $1068$ persone. È il calcolo dietro i sondaggi con " $\pm3\%$ ": $p=0{,}5$ massimizza la dimensione richiesta, garantendo il margine per qualsiasi vero $p$ .

8. Intervallo per la differenza di due medie

Esercizio. Due linee produttive hanno campioni indipendenti:

n_1=64,\quad \bar x_1=12,\quad s_1=4, \qquad n_2=49,\quad \bar x_2=10{,}5,\quad s_2=3{,}5.

Costruire un intervallo al $95\%$ per $\mu_1-\mu_2$ usando l’approssimazione normale.

La stima puntuale è

\bar x_1-\bar x_2=12-10{,}5=1{,}5.

L’errore standard per campioni indipendenti è

SE=\sqrt{\dfrac{s_1^2}{n_1}+\dfrac{s_2^2}{n_2}} =\sqrt{\dfrac{16}{64}+\dfrac{12{,}25}{49}} =\sqrt{0{,}25+0{,}25} =0{,}707.

Con $z_{0{,}975}=1{,}96$ , il margine è

1{,}96\times0{,}707=1{,}39.

Quindi

(\bar x_1-\bar x_2)\pm zSE =1{,}5\pm1{,}39 \quad\Rightarrow\quad [0{,}11,\ 2{,}89].

Poiché l’intervallo non contiene $0$ , i dati sono compatibili con una media della prima linea maggiore della seconda al livello considerato.

9. Intervallo per la varianza con chi-quadro

Esercizio. Da un campione normale di numerosità $n=21$ si ottiene $s^2=9$ . Costruire un intervallo al $95\%$ per la varianza $\sigma^2$ .

Per popolazione normale vale

\dfrac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}.

Con $n-1=20$ gradi di libertà, usiamo i quantili

\chi^2_{0{,}975,20}=34{,}17,\qquad \chi^2_{0{,}025,20}=9{,}59.

L’intervallo per $\sigma^2$ è

\left[ \dfrac{(n-1)s^2}{\chi^2_{0{,}975,20}}, \dfrac{(n-1)s^2}{\chi^2_{0{,}025,20}} \right] = \left[ \dfrac{20\cdot9}{34{,}17}, \dfrac{20\cdot9}{9{,}59} \right].

Numericamente:

\sigma^2\in[5{,}27,\ 18{,}77].

Per la deviazione standard si estrae la radice:

\sigma\in[\sqrt{5{,}27},\sqrt{18{,}77}] \approx[2{,}30,\ 4{,}33].

Questo intervallo è asimmetrico perché la distribuzione chi-quadro non è simmetrica.

10. Limite superiore unilaterale per la media

Esercizio. Un campione di $n=25$ ha $\bar x=100$ e $s=10$ . Costruire un limite superiore di confidenza al $95\%$ per $\mu$ .

Con $\sigma$ ignoto si usa la $t$ di Student con $24$ gradi di libertà. Per un intervallo unilaterale al $95\%$ il quantile è

t_{0{,}95,24}=1{,}711.

Il limite superiore è

U=\bar x+t\dfrac{s}{\sqrt n} =100+1{,}711\dfrac{10}{5} =100+3{,}42 =103{,}42.

Si scrive

\mu\le 103{,}42 \quad\text{con confidenza }95\%.

Un limite unilaterale è adatto quando interessa controllare solo il superamento di una soglia, per esempio una media massima di consumo, tempo o difettosità.

Errori comuni

Usare $z$ con piccoli campioni e $\sigma$ ignoto. Con $\sigma$ stimato da $s$ e $n$ piccolo serve la $t$ di Student, non la normale.
Interpretare male la confidenza. Il $95\%$ riguarda la procedura (la frazione di intervalli che contengono $\mu$ ), non la probabilità che $\mu$ stia in quel particolare intervallo.
Dimenticare il caso peggiore per le proporzioni. Senza stima di $p$ , si usa $p=0{,}5$ per il dimensionamento, che massimizza $p(1-p)$ .
Confondere $\sigma$ ed errore standard. L’intervallo usa $\sigma/\sqrt n$ (errore standard della media), non $\sigma$ della singola osservazione.
Usare formule per una media quando il parametro è una varianza. Per $\sigma^2$ serve la distribuzione chi-quadro e l’ipotesi di normalità è molto più importante.
Dimenticare la direzione negli intervalli unilaterali. Un limite superiore usa il quantile $t_{1-\alpha}$ ; un limite inferiore sottrae lo stesso margine.