Il valore atteso e la varianza sono i due momenti che riassumono posizione e dispersione di una variabile aleatoria. Le loro proprietà — linearità, comportamento delle somme — e le disuguaglianze di Markov e Chebyshev permettono stime valide per qualunque distribuzione, anche ignota. Questa scheda allena queste proprietà generali.
1. Linearità del valore atteso
Esercizio. Se E[X]=4 ed E[Y]=7, calcolare E[3X-2Y+5].
La linearità vale sempre, anche senza indipendenza:
E[3X-2Y+5]=3E[X]-2E[Y]+5=3\times4-2\times7+5=12-14+5=3.
È la proprietà più robusta del valore atteso: non richiede ipotesi sulle variabili.
2. Varianza di una trasformazione lineare
Esercizio. Se \operatorname{Var}(X)=9, calcolare \operatorname{Var}(2X+10).
La costante additiva non altera la dispersione; il fattore moltiplicativo entra al quadrato:
\operatorname{Var}(aX+b)=a^2\operatorname{Var}(X)=2^2\times9=36.
Lo spostamento (+10) trasla la distribuzione ma non la allarga; la scala (\times2) raddoppia la deviazione standard, quindi quadruplica la varianza.
3. Varianza di una somma di variabili indipendenti
Esercizio. X e Y indipendenti con \operatorname{Var}(X)=4, \operatorname{Var}(Y)=9. Calcolare \operatorname{Var}(X+Y) e \operatorname{Var}(X-Y).
Per variabili indipendenti le varianze si sommano (in entrambi i casi):
\operatorname{Var}(X+Y)=\operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)=4+9=13.
Attenzione: anche per la differenza le varianze si sommano, non si sottraggono. Il segno meno non riduce l’incertezza, la accumula.
4. Varianza con covarianza
Esercizio. Se \operatorname{Var}(X)=4, \operatorname{Var}(Y)=9, \operatorname{Cov}(X,Y)=2, calcolare \operatorname{Var}(X+Y).
Senza indipendenza compare il termine di covarianza:
\operatorname{Var}(X+Y)=\operatorname{Var}(X)+\operatorname{Var}(Y)+2\operatorname{Cov}(X,Y)=4+9+2\times2=17.
La covarianza positiva amplifica la varianza della somma: le variabili “si muovono insieme”. Se fosse negativa, la ridurrebbe.
5. Media campionaria
Esercizio. Si media n=25 misure indipendenti, ciascuna con \sigma=10. Qual è la deviazione standard della media campionaria \bar X?
La varianza della media di n variabili indipendenti identiche è \sigma^2/n:
\operatorname{Var}(\bar X)=\dfrac{\sigma^2}{n}=\dfrac{100}{25}=4\ \Rightarrow\ \sigma_{\bar X}=\sqrt4=2.
Mediando si riduce la dispersione: l’errore standard cala come 1/\sqrt n. Per dimezzarlo servono quattro volte più misure.
6. Disuguaglianza di Markov
Esercizio. Una variabile non negativa ha media E[X]=5. Stimare P(X\ge20).
Markov dà un limite superiore con la sola media (variabile \ge0):
P(X\ge a)\le\dfrac{E[X]}{a}=\dfrac{5}{20}=0{,}25.
Al più il 25\% della massa sta oltre 20. È una stima grezza ma universale: non richiede di conoscere la distribuzione.
7. Disuguaglianza di Chebyshev
Esercizio. Una variabile ha \mu=50 e \sigma=5. Stimare la probabilità che disti da \mu più di 15.
Chebyshev limita le code usando media e varianza. Con k\sigma=15\Rightarrow k=3:
P(|X-\mu|\ge k\sigma)\le\dfrac{1}{k^2}=\dfrac{1}{9}=0{,}111.
Al più l’11\% dista oltre 3\sigma dalla media, qualunque sia la distribuzione. Per una normale sarebbe lo 0{,}3\%: Chebyshev è conservativa ma generale.
8. Chebyshev per dimensionare un campione
Esercizio. Garantire che la media campionaria di misure con \sigma=8 disti dalla media vera meno di 1 con probabilità \ge0{,}95. Quante misure servono (via Chebyshev)?
Passo 1 — varianza della media: \operatorname{Var}(\bar X)=\sigma^2/n=64/n.
Passo 2 — Chebyshev: vogliamo P(|\bar X-\mu|\ge1)\le0{,}05. Con \operatorname{Var}(\bar X)/a^2:
\dfrac{64/n}{1^2}\le0{,}05\ \Rightarrow\ n\ge\dfrac{64}{0{,}05}=1280.
Servono almeno 1280 misure. Chebyshev sovrastima (con la normale ne basterebbero \sim246), ma dà una garanzia indipendente dalla forma della distribuzione.
9. Valore atteso e varianza da una distribuzione discreta
Esercizio. Una variabile X assume i valori 0,1,2,3 con probabilità 0{,}1,\ 0{,}3,\ 0{,}4,\ 0{,}2. Calcolare E[X], E[X^2] e \operatorname{Var}(X).
Il valore atteso è
Il secondo momento è
Usiamo
Quindi
La deviazione standard è \sqrt{0{,}81}=0{,}9.
10. Variabili indicatrici e conteggi
Esercizio. Si effettuano n prove indipendenti, ciascuna con probabilità di successo p. Usare variabili indicatrici per ricavare media e varianza del numero totale di successi.
Definiamo
Il numero totale di successi è
Per ogni indicatrice:
Per linearità del valore atteso:
Se le prove sono indipendenti, anche le indicatrici lo sono, quindi le varianze si sommano:
Questa è la derivazione strutturale delle formule della binomiale: spesso contare con indicatrici è più semplice che lavorare direttamente con tutte le probabilità.
11. Valore atteso totale
Esercizio. Un pezzo proviene dalla linea A con probabilità 0{,}6 e dalla linea B con probabilità 0{,}4. La probabilità di difetto è 0{,}02 per A e 0{,}05 per B. Calcolare la probabilità totale di difetto.
Sia D l’evento “pezzo difettoso”. La formula del valore atteso totale, applicata all’indicatrice di D, coincide con la probabilità totale:
Quindi
La probabilità complessiva di difetto è 3{,}2\%.
L’idea generale è:
cioè si può calcolare una media globale mediando prima dentro i gruppi e poi sui gruppi.
Errori comuni
- Sottrarre le varianze nella differenza. \operatorname{Var}(X-Y)=\operatorname{Var}(X)+\operatorname{Var}(Y) per variabili indipendenti: il segno meno non sottrae le varianze.
- Dimenticare il quadrato nel fattore di scala. \operatorname{Var}(aX)=a^2\operatorname{Var}(X), non a\operatorname{Var}(X).
- Applicare Markov a variabili che cambiano segno. Markov richiede X\ge0; senza questa ipotesi il limite non vale.
- Confondere \sigma con \sigma/\sqrt n. La deviazione della singola misura è \sigma; quella della media campionaria è \sigma/\sqrt n, molto più piccola.
- Dimenticare la formula computazionale della varianza. \operatorname{Var}(X)=E[X^2]-(E[X])^2, non E[X^2].
- Sommar varianze senza indipendenza. Le varianze si sommano solo se le covarianze sono nulle; altrimenti servono i termini 2\operatorname{Cov}.