I teoremi limite spiegano perché la statistica funziona: la legge dei grandi numeri garantisce che la media campionaria converge alla media vera, e il teorema del limite centrale (TLC) dice che la somma di molte variabili indipendenti è approssimativamente normale, qualunque sia la loro distribuzione. Questa scheda applica questi risultati a problemi di approssimazione.
TLC: per n grande, \;\bar X\approx N\!\left(\mu,\ \dfrac{\sigma^2}{n}\right).
1. Legge dei grandi numeri
Esercizio. Lanciando una moneta equa n volte, verso cosa converge la frazione di teste al crescere di n?
La legge dei grandi numeri afferma che la media campionaria converge alla media vera:
\bar X_n=\dfrac{\text{n.\ teste}}{n}\ \xrightarrow{n\to\infty}\ E[X]=p=0{,}5.
Per n grande la frequenza relativa si stabilizza su 0{,}5. È la giustificazione teorica dell’interpretazione frequentista della probabilità. Attenzione: non garantisce un “riequilibrio” su singole prove (nessuna memoria).
2. Distribuzione della media campionaria
Esercizio. Si mediano n=36 misure indipendenti da una popolazione con \mu=20 e \sigma=6. Distribuzione approssimata di \bar X?
Per il TLC, indipendentemente dalla forma della popolazione:
\bar X\approx N\!\left(\mu,\ \dfrac{\sigma^2}{n}\right)=N\!\left(20,\ \dfrac{36}{36}\right)=N(20,\ 1).
La media campionaria ha media 20 e deviazione standard \sigma/\sqrt n=6/6=1. Mediare riduce la dispersione e “normalizza” la distribuzione.
3. Probabilità sulla media campionaria
Esercizio. Per la \bar X del punto 2, calcolare P(\bar X>21{,}5).
Standardizzando con \sigma_{\bar X}=1:
Z=\dfrac{21{,}5-20}{1}=1{,}5\ \Rightarrow\ P(\bar X>21{,}5)=P(Z>1{,}5)=1-\Phi(1{,}5)=1-0{,}933=0{,}067.
Circa il 6{,}7\% dei campioni di 36 misure dà media oltre 21{,}5. Il TLC permette di calcolarlo anche senza conoscere la distribuzione di partenza.
4. Approssimazione normale della binomiale
Esercizio. Si lancia 100 volte una moneta equa. Probabilità di ottenere almeno 60 teste (approssimazione normale)?
Passo 1 — parametri. X\sim B(100,\ 0{,}5): \mu=np=50, \sigma=\sqrt{np(1-p)}=\sqrt{25}=5.
Passo 2 — standardizzazione (senza correzione):
Z=\dfrac{60-50}{5}=2{,}0\ \Rightarrow\ P(X\ge60)\approx P(Z\ge2)=1-0{,}977=0{,}023.
Circa il 2{,}3\%. La binomiale con n grande e p non estremo è ben approssimata dalla normale.
5. Correzione di continuità
Esercizio. Rifare il punto 4 con la correzione di continuità e confrontare.
La binomiale è discreta, la normale continua: per P(X\ge60) si parte da 59{,}5:
Z=\dfrac{59{,}5-50}{5}=1{,}9\ \Rightarrow\ P(X\ge60)\approx P(Z\ge1{,}9)=1-0{,}971=0{,}029.
Con la correzione si ottiene 0{,}029 contro 0{,}023 senza: la correzione di \pm0{,}5 avvicina al valore esatto, importante quando n non è grandissimo.
6. Dimensione del campione per una precisione
Esercizio. Quante misure servono affinché la media campionaria disti da \mu meno di 0{,}5 con probabilità 0{,}95, sapendo \sigma=4?
Per il TLC, P(|\bar X-\mu|<0{,}5)=0{,}95 richiede 0{,}5=1{,}96\,\sigma/\sqrt n:
\sqrt n=\dfrac{1{,}96\times4}{0{,}5}=15{,}68\ \Rightarrow\ n=15{,}68^2=246.
Servono circa 246 misure. Il fattore 1{,}96 è il quantile della normale al 95\% bilaterale. (Confronto: Chebyshev ne chiedeva molte di più, perché non sfrutta la forma normale.)
7. Somma di variabili non normali
Esercizio. Si sommano n=50 tempi di servizio indipendenti, ciascuno esponenziale con media 2 min (quindi \sigma=2 min). Probabilità che il tempo totale superi 110 min?
Passo 1 — parametri della somma \displaystyle S=\sum X_i:
E[S]=n\mu=50\times2=100,\qquad \sigma_S=\sigma\sqrt n=2\sqrt{50}=14{,}14.
Passo 2 — TLC (la somma è circa normale anche se i singoli tempi sono esponenziali):
Z=\dfrac{110-100}{14{,}14}=0{,}707\ \Rightarrow\ P(S>110)\approx P(Z>0{,}71)=1-0{,}761=0{,}239.
Circa il 24\%. Notevole: pur sommando esponenziali (molto asimmetriche), per n=50 la somma è già ben approssimata da una normale.
8. Distribuzione della proporzione campionaria
Esercizio. In un processo con proporzione vera di pezzi conformi p=0{,}40, si osservano campioni di ampiezza n=900. Approssimare
La proporzione campionaria è una media di variabili Bernoulli. Per il TLC:
Qui
Standardizziamo gli estremi:
Quindi
Circa il 93{,}4\% dei campioni produce una proporzione entro tre punti percentuali dal valore vero.
9. Quantile della media campionaria
Esercizio. Una popolazione ha media \mu=100 e deviazione standard \sigma=15. Per campioni di ampiezza n=64, trovare il valore k tale che
Per il TLC:
Il quantile normale al 90\% è z_{0{,}90}=1{,}282. Allora
Quindi
Il TLC non serve solo a calcolare probabilità dirette: permette anche di progettare soglie e quantili operativi.
10. Quando la normale non è una buona approssimazione
Esercizio. Per X\sim B(100,0{,}02), valutare se l’approssimazione normale è adeguata.
I parametri della binomiale sono
La regola pratica per l’approssimazione normale richiede entrambi almeno circa 5 o 10, a seconda della convenzione. Qui np=2 è troppo piccolo: la distribuzione è molto asimmetrica e concentrata vicino a 0.
In questo caso è più naturale usare l’approssimazione di Poisson con
Per esempio
La lezione è operativa: il TLC è potente, ma non cancella le condizioni di scala. Per proporzioni rare o campioni moderati, la normale può produrre stime grossolane.
Errori comuni
- Confondere \sigma con \sigma/\sqrt n. Il TLC riguarda la media campionaria, con deviazione \sigma/\sqrt n: usare \sigma della singola misura dà probabilità completamente errate.
- Dimenticare la correzione di continuità. Approssimando una discreta con la normale, lo scarto di \pm0{,}5 migliora sensibilmente la stima per n moderato.
- Applicare il TLC a campioni troppo piccoli. L’approssimazione normale richiede n sufficiente; per distribuzioni molto asimmetriche servono n più grandi.
- Interpretare male la LGN. Non c’è “legge del riequilibrio”: dopo molte teste, la moneta resta equa: la convergenza è della media, non delle singole prove.
- Usare la normale per eventi rari senza controlli. Nelle binomiali con p molto piccolo serve verificare np; spesso Poisson è più adatta.
- Dimenticare che una proporzione è una media. \hat p si tratta con il TLC come media di Bernoulli, con errore standard \sqrt{p(1-p)/n}.