Formulario di Probabilità e Statistica

Indice dei contenuti

    Questo formulario raccoglie gli strumenti principali di Probabilità e Statistica per un corso di ingegneria. L’obiettivo è dare formule utilizzabili, ma anche commentarle con le ipotesi e il significato operativo: una formula statistica senza modello, campione, livello di rischio e unità di misura è facile da applicare male.

    La probabilità descrive l’incertezza prima dell’osservazione: eventi, variabili aleatorie, distribuzioni, dipendenze e limiti asintotici. La statistica usa dati osservati per stimare parametri, confrontare ipotesi, costruire modelli e quantificare l’incertezza residua. In ingegneria queste idee entrano in affidabilità, controllo qualità, misure sperimentali, simulazione, data analysis, manutenzione, rischio, reti, code, sistemi produttivi e sicurezza.

    Le formule vanno lette sempre insieme a tre domande: quali dati ho, quale modello sto assumendo, quale decisione devo prendere. La stessa media può essere un valore atteso teorico, una media campionaria, una previsione di modello o una stima incerta; confonderle porta a conclusioni fragili.

    1. Richiami iniziali: insiemi, somme e funzioni

    Spazio degli esiti

    Ω={ω:ω eˋ un esito possibile dell’esperimento}\Omega=\{\omega:\omega \text{ è un esito possibile dell'esperimento}\}

    Ω\Omega contiene tutti gli esiti elementari che il modello considera possibili. In un lancio di dado ideale, Ω={1,2,3,4,5,6}\Omega=\{1,2,3,4,5,6\}. In una misura continua, Ω\Omega può essere un intervallo o uno spazio più complesso. Scegliere correttamente Ω\Omega è il primo atto di modellazione.

    Evento

    AΩA\subseteq \Omega

    Un evento è un insieme di esiti. Dire che l’evento AA si verifica significa dire che l’esito osservato appartiene ad AA. Per esempio, nel dado l’evento “numero pari” è A={2,4,6}A=\{2,4,6\}.

    Complementare

    Ac=ΩAA^c=\Omega\setminus A

    Il complementare è l’evento “non AA”. Se AA è l’evento guasto entro un certo tempo, AcA^c è sopravvivenza oltre quel tempo. In probabilità, complementare e differenza tra insiemi permettono spesso di calcolare eventi difficili tramite eventi più semplici.

    Unione e intersezione

    AB={ω:ωA oppure ωB}A\cup B=\{\omega:\omega\in A \text{ oppure } \omega\in B\} AB={ω:ωA e ωB}A\cap B=\{\omega:\omega\in A \text{ e } \omega\in B\}

    L’unione rappresenta il verificarsi di almeno uno dei due eventi. L’intersezione rappresenta il verificarsi simultaneo. In affidabilità, se AA e BB sono guasti di componenti, ABA\cup B descrive “almeno un componente guasto”, mentre ABA\cap B descrive “entrambi guasti”.

    Eventi disgiunti

    AB=A\cap B=\varnothing

    Due eventi sono disgiunti se non possono verificarsi insieme. Non bisogna confondere disgiunzione e indipendenza: eventi disgiunti con probabilità positive non sono indipendenti, perché sapere che uno si è verificato esclude l’altro.

    Partizione

    Ω=H1H2Hn,HiHj= se ij\Omega=H_1\cup H_2\cup\dots\cup H_n,\qquad H_i\cap H_j=\varnothing \text{ se } i\ne j

    Una partizione divide lo spazio degli esiti in casi alternativi e completi. Le formule di probabilità totale e di Bayes si basano su una partizione: prima si separano gli scenari possibili, poi si pesa il contributo di ciascuno.

    Cardinalità

    A=numero di elementi di A|A|=\text{numero di elementi di } A

    La cardinalità conta gli elementi di un insieme finito. Nella probabilità classica, quando tutti gli esiti sono equiprobabili, la probabilità si riduce a un rapporto tra cardinalità.

    Sommatoria finita

    i=1nai=a1+a2++an\sum_{i=1}^n a_i=a_1+a_2+\dots+a_n

    La sommatoria abbrevia una somma finita. In probabilità discreta compare per normalizzare distribuzioni, calcolare valori attesi, varianze e probabilità marginali. L’indice ii è muto: può essere sostituito da un’altra lettera senza cambiare il significato.

    Prodotto finito

    i=1nai=a1a2an\prod_{i=1}^n a_i=a_1a_2\dots a_n

    Il prodotto finito compare in probabilità di eventi indipendenti, likelihood campionarie e densità congiunte di osservazioni indipendenti. Se i fattori sono probabilità, il prodotto può diventare molto piccolo; per questo in statistica computazionale si lavora spesso con logaritmi.

    Indicatrice di un evento

    1A(ω)={1se ωA,0se ωA.\mathbf{1}_A(\omega)= \begin{cases} 1 & \text{se } \omega\in A,\\ 0 & \text{se } \omega\notin A. \end{cases}

    La funzione indicatrice trasforma un evento in una variabile numerica. È utile perché permette di scrivere conteggi e frequenze come somme:

    numero di occorrenze di A=i=1n1A(ωi)\text{numero di occorrenze di } A=\sum_{i=1}^n \mathbf{1}_A(\omega_i)

    Questa idea collega direttamente probabilità, campionamento e statistica descrittiva.

    Integrale come area ponderata

    abf(x)dx\int_a^b f(x)\,dx

    Nelle distribuzioni continue l’integrale sostituisce la somma. Una densità ff non dà direttamente probabilità puntuali, ma probabilità di intervalli tramite area. Per questo, nel continuo, di solito P(X=x)=0P(X=x)=0 anche per valori possibili.

    Funzione esponenziale e logaritmo

    ea+b=eaeb,log(ab)=loga+logbe^{a+b}=e^ae^b,\qquad \log(ab)=\log a+\log b

    Esponenziale e logaritmo sono onnipresenti: distribuzione normale, esponenziale, Poisson, likelihood, modelli log-lineari e decadimento affidabilistico. Il logaritmo trasforma prodotti in somme, rendendo più stabile e interpretabile la stima di parametri.

    2. Calcolo combinatorio

    Fattoriale

    n!=n(n1)(n2)21,0!=1n!=n(n-1)(n-2)\dots 2\cdot 1,\qquad 0!=1

    Il fattoriale conta i modi di ordinare nn oggetti distinti. La convenzione 0!=10!=1 rende coerenti molte formule combinatorie, come il coefficiente binomiale per k=0k=0.

    Permutazioni semplici

    Pn=n!P_n=n!

    Le permutazioni semplici sono gli ordinamenti di nn oggetti distinti. Se si devono ordinare nn componenti, nn lavorazioni o nn etichette senza ripetizioni, il numero di sequenze possibili è n!n!.

    Disposizioni semplici

    Dn,k=n!(nk)!D_{n,k}=\frac{n!}{(n-k)!}

    Le disposizioni contano i modi di scegliere e ordinare kk oggetti distinti tra nn. L’ordine conta e non sono ammesse ripetizioni. Si usano quando la posizione o la sequenza ha significato.

    Disposizioni con ripetizione

    Dn,k=nkD'_{n,k}=n^k

    Si scelgono kk elementi da nn possibilità, ammettendo ripetizioni e distinguendo l’ordine. È il modello tipico di codici, password ideali a lunghezza fissa e sequenze di prove indipendenti con lo stesso numero di esiti.

    Combinazioni semplici

    (nk)=n!k!(nk)!\binom{n}{k}=\frac{n!}{k!(n-k)!}

    Le combinazioni contano i modi di scegliere kk oggetti tra nn senza considerare l’ordine. La simmetria:

    (nk)=(nnk)\binom{n}{k}=\binom{n}{n-k}

    dice che scegliere kk oggetti equivale a scegliere gli nkn-k esclusi.

    Combinazioni con ripetizione

    (n+k1k)\binom{n+k-1}{k}

    Questa formula conta i modi di scegliere kk oggetti da nn tipi ammettendo ripetizioni e senza ordine. È il modello delle distribuzioni di kk unità indistinguibili in nn categorie.

    Permutazioni con ripetizioni

    n!n1!n2!nr!\frac{n!}{n_1!n_2!\dots n_r!}

    Se tra nn oggetti ci sono gruppi indistinguibili di numerosità n1,,nrn_1,\dots,n_r, il fattoriale totale sovraconta gli scambi interni ai gruppi. Si divide quindi per i fattoriali delle ripetizioni. Questa formula è alla base del coefficiente multinomiale.

    Coefficiente multinomiale

    (nn1,n2,,nr)=n!n1!n2!nr!,n1++nr=n\binom{n}{n_1,n_2,\dots,n_r}= \frac{n!}{n_1!n_2!\dots n_r!}, \qquad n_1+\dots+n_r=n

    Il coefficiente multinomiale conta i modi di ripartire nn prove in rr categorie con conteggi fissati. È l’estensione del coefficiente binomiale a più di due esiti.

    Binomio di Newton

    (a+b)n=k=0n(nk)akbnk(a+b)^n=\sum_{k=0}^n \binom{n}{k}a^k b^{n-k}

    Il coefficiente (nk)\binom{n}{k} conta in quanti modi si scelgono i kk fattori da cui prendere aa nel prodotto di nn parentesi. La formula è il fondamento combinatorio della distribuzione binomiale.

    Multinomio

    (x1++xr)n=n1++nr=n(nn1,,nr)x1n1xrnr(x_1+\dots+x_r)^n = \sum_{n_1+\dots+n_r=n} \binom{n}{n_1,\dots,n_r} x_1^{n_1}\dots x_r^{n_r}

    Ogni termine corrisponde a una distribuzione dei nn fattori tra rr categorie. In probabilità porta direttamente alla distribuzione multinomiale, usata quando ogni prova può produrre più di due risultati.

    3. Probabilità elementare e assiomi

    Probabilità classica con esiti equiprobabili

    P(A)=AΩP(A)=\frac{|A|}{|\Omega|}

    La formula vale solo quando lo spazio campionario è finito e tutti gli esiti elementari hanno la stessa probabilità. Non è la definizione generale di probabilità: è un caso particolare basato su simmetria o equiprobabilità ragionevole.

    Assiomi di Kolmogorov

    P(A)0P(A)\ge 0

    Ogni probabilità è non negativa. Inoltre:

    P(Ω)=1P(\Omega)=1

    L’evento certo ha probabilità uno. Infine, per eventi a due a due disgiunti:

    P(i=1Ai)=i=1P(Ai)P\left(\bigcup_{i=1}^{\infty}A_i\right)=\sum_{i=1}^{\infty}P(A_i)

    Questo assioma di additività numerabile permette di calcolare probabilità di unioni disgiunte anche infinite.

    Probabilità dell’evento impossibile

    P()=0P(\varnothing)=0

    L’evento impossibile non contiene esiti e quindi non può verificarsi. La formula deriva dagli assiomi: poiché Ω\Omega e \varnothing sono disgiunti e Ω=Ω\Omega\cup\varnothing=\Omega, si ottiene P(Ω)=P(Ω)+P()P(\Omega)=P(\Omega)+P(\varnothing).

    Complementare

    P(Ac)=1P(A)P(A^c)=1-P(A)

    Evento e complementare sono disgiunti e la loro unione è Ω\Omega. Questa formula è spesso il modo più semplice per calcolare probabilità di almeno un successo, almeno un guasto o almeno un errore: si calcola il contrario, cioè nessun successo, nessun guasto o nessun errore.

    Monotonia

    ABP(A)P(B)A\subseteq B \quad \Longrightarrow \quad P(A)\le P(B)

    Se ogni esito che realizza AA realizza anche BB, allora BB non può essere meno probabile di AA. La probabilità rispetta l’inclusione tra eventi.

    Differenza di eventi

    P(AB)=P(A)P(AB)P(A\setminus B)=P(A)-P(A\cap B)

    ABA\setminus B è la parte di AA che resta escludendo BB. La formula è utile quando si vuole calcolare “A ma non B”. Richiede di sottrarre solo la parte di AA che cade effettivamente in BB, cioè l’intersezione.

    Unione di due eventi

    P(AB)=P(A)+P(B)P(AB)P(A\cup B)=P(A)+P(B)-P(A\cap B)

    Sommare P(A)P(A) e P(B)P(B) conta due volte gli esiti comuni. Per correggere il doppio conteggio si sottrae P(AB)P(A\cap B). Se gli eventi sono disgiunti, l’intersezione è vuota e la formula diventa semplicemente additiva.

    Unione di tre eventi

    P(ABC)=P(A)+P(B)+P(C)P(AB)P(AC)P(BC)+P(ABC)\begin{aligned} P(A\cup B\cup C) &=P(A)+P(B)+P(C)\\ &\quad -P(A\cap B)-P(A\cap C)-P(B\cap C)\\ &\quad +P(A\cap B\cap C) \end{aligned}

    La formula alterna somme e sottrazioni per correggere i conteggi multipli. Dopo aver sottratto le intersezioni a due a due, l’intersezione tripla è stata tolta troppe volte e va riaggiunta.

    Disuguaglianza di Boole

    P(A1An)i=1nP(Ai)P(A_1\cup\dots\cup A_n)\le \sum_{i=1}^n P(A_i)

    È un limite superiore semplice per la probabilità di almeno uno tra più eventi. Non richiede indipendenza. È utile quando le intersezioni sono difficili da calcolare e serve una stima conservativa del rischio complessivo.

    Continuità crescente

    A1A2,P(n=1An)=limnP(An)A_1\subseteq A_2\subseteq\dots,\qquad P\left(\bigcup_{n=1}^{\infty}A_n\right)=\lim_{n\to\infty}P(A_n)

    Se gli eventi aumentano progressivamente, la probabilità del limite è il limite delle probabilità. Questa proprietà è importante nei modelli con eventi definiti come unioni infinite.

    Continuità decrescente

    A1A2,P(n=1An)=limnP(An)A_1\supseteq A_2\supseteq\dots,\qquad P\left(\bigcap_{n=1}^{\infty}A_n\right)=\lim_{n\to\infty}P(A_n)

    Se gli eventi si restringono progressivamente, la probabilità dell’intersezione limite è il limite delle probabilità. La proprietà vale in particolare quando P(A1)P(A_1) è finita, condizione sempre soddisfatta in uno spazio di probabilità.

    4. Probabilità condizionata, indipendenza e Bayes

    Probabilità condizionata

    P(AB)=P(AB)P(B),P(B)>0P(A\mid B)=\frac{P(A\cap B)}{P(B)},\qquad P(B)>0

    La probabilità condizionata misura la probabilità di AA dopo aver saputo che BB si è verificato. Il denominatore P(B)P(B) deve essere positivo: non si può condizionare su un evento impossibile. Il nuovo universo di riferimento diventa BB.

    Regola del prodotto

    P(AB)=P(AB)P(B)=P(BA)P(A)P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A)

    La probabilità congiunta può essere scritta come probabilità del primo evento per probabilità del secondo dato il primo, o viceversa. La formula è la base per decomporre eventi complessi in passi successivi.

    Regola del prodotto per più eventi

    P(A1An)=P(A1)P(A2A1)P(AnA1An1)P(A_1\cap\dots\cap A_n) =P(A_1)P(A_2\mid A_1)\dots P(A_n\mid A_1\cap\dots\cap A_{n-1})

    Questa catena scrive la probabilità di una sequenza di eventi come prodotto di probabilità condizionate. È utile in processi sequenziali, alberi di probabilità, catene di Markov e diagnostica.

    Formula delle probabilità totali

    P(E)=i=1nP(EHi)P(Hi)P(E)=\sum_{i=1}^n P(E\mid H_i)P(H_i)

    Gli eventi H1,,HnH_1,\dots,H_n devono formare una partizione di Ω\Omega e avere probabilità positiva. La formula calcola la probabilità di EE sommando i contributi dei diversi scenari HiH_i, pesati per la loro probabilità.

    Teorema di Bayes

    P(H_j\mid E)= \frac{P(E\mid H_j)P(H_j)} \sum_{i=1}^n P(E\mid H_i)P(H_i)}

    Bayes aggiorna la probabilità di un’ipotesi HjH_j dopo aver osservato l’evidenza EE. Il numeratore contiene quanto l’ipotesi era plausibile prima e quanto rende probabile l’evidenza. Il denominatore normalizza su tutte le ipotesi alternative.

    Odds bayesiani

    P(H1E)P(H2E)=P(EH1)P(EH2)P(H1)P(H2)\frac{P(H_1\mid E)}{P(H_2\mid E)} = \frac{P(E\mid H_1)}{P(E\mid H_2)} \frac{P(H_1)}{P(H_2)}

    Gli odds posteriori sono odds iniziali moltiplicati per il rapporto di verosimiglianza. Questa forma è molto chiara in diagnostica: un test cambia le probabilità in base a quanto l’evidenza è più probabile sotto un’ipotesi rispetto all’altra.

    Indipendenza di due eventi

    ABP(AB)=P(A)P(B)A \perp B \quad \Longleftrightarrow \quad P(A\cap B)=P(A)P(B)

    Due eventi sono indipendenti se il verificarsi di uno non cambia la probabilità dell’altro. Se P(B)>0P(B)>0, la stessa condizione equivale a:

    P(AB)=P(A)P(A\mid B)=P(A)

    Indipendenza non significa disgiunzione: eventi indipendenti possono verificarsi insieme.

    Indipendenza a coppie

    P(AiAj)=P(Ai)P(Aj)ijP(A_i\cap A_j)=P(A_i)P(A_j)\qquad i\ne j

    L’indipendenza a coppie richiede indipendenza per ogni coppia di eventi. Non basta però a garantire indipendenza collettiva. Questo punto è importante: molti errori nascono dal moltiplicare probabilità senza verificare l’indipendenza della famiglia intera.

    Indipendenza mutua

    P(iIAi)=iIP(Ai)P\left(\bigcap_{i\in I}A_i\right)=\prod_{i\in I}P(A_i)

    La formula deve valere per ogni sottoinsieme finito di indici II. L’indipendenza mutua è più forte dell’indipendenza a coppie. È l’ipotesi tipica per prove ripetute identiche, misure indipendenti e componenti guastabili indipendentemente.

    Probabilità di almeno un evento indipendente

    P(A1An)=1i=1n(1P(Ai))P(A_1\cup\dots\cup A_n)=1-\prod_{i=1}^n \bigl(1-P(A_i)\bigr)

    La formula vale se gli eventi sono indipendenti. Si calcola il complementare: nessun evento si verifica. È molto usata per “almeno un guasto”, “almeno un successo”, “almeno un errore”.

    5. Variabili aleatorie

    Variabile aleatoria

    X:ΩRX:\Omega\to\mathbb{R}

    Una variabile aleatoria assegna un numero reale a ogni esito dell’esperimento. Non è una variabile nel senso deterministico: prima dell’osservazione il suo valore è incerto; dopo l’osservazione assume un valore numerico.

    Funzione di ripartizione

    FX(x)=P(Xx)F_X(x)=P(X\le x)

    La funzione di ripartizione accumula probabilità fino al valore xx. È definita per qualunque variabile aleatoria reale, discreta o continua. È crescente, assume valori tra 00 e 11, tende a 00 per xx\to -\infty e a 11 per x+x\to +\infty.

    Probabilità di un intervallo tramite ripartizione

    P(a<Xb)=FX(b)FX(a)P(a<X\le b)=F_X(b)-F_X(a)

    La formula vale in generale. La scelta di includere bb ed escludere aa è coerente con la definizione FX(x)=P(Xx)F_X(x)=P(X\le x). Nel caso continuo le inclusioni degli estremi non cambiano il valore; nel caso discreto possono contare.

    Variabile discreta

    pX(xi)=P(X=xi)p_X(x_i)=P(X=x_i)

    Una variabile aleatoria discreta assume valori in un insieme finito o numerabile. La funzione pXp_X assegna probabilità ai singoli valori. Deve valere:

    ipX(xi)=1\sum_i p_X(x_i)=1

    La somma totale delle probabilità di tutti i valori possibili deve essere uno.

    Variabile continua

    P(aXb)=abfX(x)dxP(a\le X\le b)=\int_a^b f_X(x)\,dx

    La densità fXf_X non è una probabilità puntuale. È una funzione che, integrata su un intervallo, restituisce probabilità. Deve essere non negativa e normalizzata:

    +fX(x)dx=1\int_{-\infty}^{+\infty} f_X(x)\,dx=1

    Nel continuo, la probabilità di un singolo punto è in genere zero.

    Densità e funzione di ripartizione

    FX(x)=xfX(t)dtF_X(x)=\int_{-\infty}^{x} f_X(t)\,dt

    Se XX è continua con densità fXf_X, la ripartizione è l’integrale cumulato della densità. Quando FXF_X è derivabile:

    fX(x)=FX(x)f_X(x)=F_X'(x)

    Questa relazione collega area cumulata e densità locale.

    Quantile

    xp=FX1(p)x_p=F_X^{-1}(p)

    Il quantile di ordine pp è un valore sotto il quale cade probabilità pp. Per esempio, la mediana è il quantile con p=12p=\frac12. Se la ripartizione non è strettamente crescente, si usa una definizione generalizzata:

    xp=inf{x:FX(x)p}x_p=\inf\{x:F_X(x)\ge p\}

    I quantili sono fondamentali in intervalli di confidenza, test e soglie di progetto.

    Funzione di sopravvivenza

    SX(x)=P(X>x)=1FX(x)S_X(x)=P(X>x)=1-F_X(x)

    La funzione di sopravvivenza è naturale quando XX rappresenta un tempo a guasto, una durata o una resistenza. In affidabilità si scrive spesso R(t)=P(T>t)R(t)=P(T>t).

    Trasformazione monotona crescente

    Y=g(X),g crescenteY=g(X),\qquad g \text{ crescente}

    Allora:

    FY(y)=P(Yy)=P(Xg1(y))=FX(g1(y))F_Y(y)=P(Y\le y)=P(X\le g^{-1}(y))=F_X(g^{-1}(y))

    La monotonia crescente conserva l’ordine. La ripartizione di YY si ottiene riportando la soglia yy sulla scala di XX.

    Trasformazione di densità

    fY(y)=fX(g1(y))ddyg1(y)f_Y(y)=f_X(g^{-1}(y))\left|\frac{d}{dy}g^{-1}(y)\right|

    La formula vale quando gg è invertibile e derivabile con derivata non nulla. Il fattore derivativo corregge la compressione o dilatazione della scala. Senza questo fattore, la densità trasformata non sarebbe correttamente normalizzata.

    6. Valore atteso, varianza e momenti

    Valore atteso discreto

    E[X]=ixipX(xi)\mathbb{E}[X]=\sum_i x_i\,p_X(x_i)

    Il valore atteso è una media pesata dei valori possibili, con pesi pari alle probabilità. Non deve necessariamente essere un valore che la variabile può assumere. È un centro teorico della distribuzione, utile per previsioni medie e bilanci.

    Valore atteso continuo

    E[X]=+xfX(x)dx\mathbb{E}[X]=\int_{-\infty}^{+\infty}x f_X(x)\,dx

    Nel caso continuo la somma pesata diventa un integrale. L’integrale deve convergere; non tutte le distribuzioni hanno valore atteso finito. La densità pesa i valori in base alla loro probabilità locale.

    Valore atteso di una funzione

    E[g(X)]=ig(xi)pX(xi)\mathbb{E}[g(X)]=\sum_i g(x_i)p_X(x_i)

    per variabili discrete, mentre nel caso continuo:

    E[g(X)]=+g(x)fX(x)dx\mathbb{E}[g(X)]=\int_{-\infty}^{+\infty}g(x)f_X(x)\,dx

    Non serve trovare prima la distribuzione di g(X)g(X): si può mediare direttamente la funzione sui valori di XX. Questa formula è molto utile per calcolare momenti, costi attesi e trasformazioni.

    Linearità del valore atteso

    E[aX+bY+c]=aE[X]+bE[Y]+c\mathbb{E}[aX+bY+c]=a\mathbb{E}[X]+b\mathbb{E}[Y]+c

    La linearità vale sempre quando i valori attesi esistono, anche senza indipendenza. È una delle proprietà più robuste della probabilità. Permette di calcolare attese di somme anche quando le variabili sono dipendenti.

    Momento di ordine kk

    mk=E[Xk]m_k=\mathbb{E}[X^k]

    I momenti grezzi descrivono la distribuzione rispetto all’origine. Il primo momento è il valore atteso. Momenti di ordine superiore contengono informazioni su dispersione, asimmetria e code.

    Momento centrale di ordine kk

    μk=E[(XE[X])k]\mu_k=\mathbb{E}\left[(X-\mathbb{E}[X])^k\right]

    I momenti centrali misurano la distribuzione rispetto alla media. Il secondo momento centrale è la varianza. Il terzo è legato all’asimmetria, il quarto alla curtosi.

    Varianza

    Var(X)=E[(Xμ)2],μ=E[X]\operatorname{Var}(X)=\mathbb{E}\left[(X-\mu)^2\right], \qquad \mu=\mathbb{E}[X]

    La varianza misura la dispersione quadratica attorno alla media. Il quadrato penalizza maggiormente gli scostamenti grandi. L’unità di misura della varianza è il quadrato dell’unità di XX.

    Formula computazionale della varianza

    Var(X)=E[X2](E[X])2\operatorname{Var}(X)=\mathbb{E}[X^2]-\bigl(\mathbb{E}[X]\bigr)^2

    Questa forma è spesso più comoda per il calcolo. Deriva dallo sviluppo del quadrato:

    E[(Xμ)2]=E[X2]2μE[X]+μ2\mathbb{E}[(X-\mu)^2]=\mathbb{E}[X^2]-2\mu\mathbb{E}[X]+\mu^2

    Poiché E[X]=μ\mathbb{E}[X]=\mu, resta E[X2]μ2\mathbb{E}[X^2]-\mu^2.

    Deviazione standard

    σX=Var(X)\sigma_X=\sqrt{\operatorname{Var}(X)}

    La deviazione standard riporta la dispersione alla stessa unità di misura di XX. Per questo è più interpretabile della varianza nelle applicazioni sperimentali.

    Varianza di trasformazione affine

    Var(aX+b)=a2Var(X)\operatorname{Var}(aX+b)=a^2\operatorname{Var}(X)

    La traslazione bb non cambia la dispersione. Il fattore di scala aa moltiplica gli scostamenti dalla media, quindi la varianza viene moltiplicata per a2a^2.

    Disuguaglianza di Jensen

    φ(E[X])E[φ(X)]\varphi(\mathbb{E}[X])\le \mathbb{E}[\varphi(X)]

    La formula vale per φ\varphi convessa. Dice che applicare una funzione convessa dopo aver mediato produce un valore non maggiore della media della funzione. È una disuguaglianza profonda: spiega perché la variabilità aumenta il valore atteso di costi convessi.

    Disuguaglianza di Markov

    P(Xa)E[X]a,X0, a>0P(X\ge a)\le \frac{\mathbb{E}[X]}{a},\qquad X\ge 0,\ a>0

    Markov fornisce un limite superiore alla probabilità di code grandi usando solo il valore atteso. È generale ma spesso conservativa. Richiede che XX sia non negativa.

    Disuguaglianza di Chebyshev

    P(Xμkσ)1k2,k>0P(|X-\mu|\ge k\sigma)\le \frac{1}{k^2},\qquad k>0

    Chebyshev usa media e varianza, senza assumere normalità. Garantisce che la probabilità di stare lontani dalla media decresce almeno come 1/k21/k^2. È utile quando la distribuzione non è nota.

    Funzione generatrice dei momenti

    MX(t)=E[etX]M_X(t)=\mathbb{E}[e^{tX}]

    Quando esiste in un intorno di zero, la funzione generatrice dei momenti determina la distribuzione e permette di ottenere i momenti derivando:

    MX(k)(0)=E[Xk]M_X^{(k)}(0)=\mathbb{E}[X^k]

    È comoda per somme di variabili indipendenti.

    Funzione caratteristica

    φX(t)=E[eitX]\varphi_X(t)=\mathbb{E}[e^{itX}]

    La funzione caratteristica esiste sempre, perché eitX=1|e^{itX}|=1. È uno strumento teorico potente per convergenza in distribuzione e somme di variabili aleatorie.

    7. Distribuzioni discrete notevoli

    Bernoulli

    XBernoulli(p),P(X=1)=p,P(X=0)=1pX\sim\operatorname{Bernoulli}(p),\qquad P(X=1)=p,\quad P(X=0)=1-p

    La Bernoulli modella una prova con due esiti: successo e insuccesso. Il parametro pp è la probabilità di successo. Valore atteso e varianza sono:

    E[X]=p,Var(X)=p(1p)\mathbb{E}[X]=p,\qquad \operatorname{Var}(X)=p(1-p)

    La varianza è massima per p=12p=\frac12 e nulla se pp è zero o uno.

    Binomiale

    XBin(n,p)X\sim\operatorname{Bin}(n,p)

    La variabile conta il numero di successi in nn prove Bernoulli indipendenti con la stessa probabilità pp. La massa di probabilità è:

    P(X=k)=(nk)pk(1p)nk,k=0,,nP(X=k)=\binom{n}{k}p^k(1-p)^{n-k},\qquad k=0,\dots,n

    Il coefficiente binomiale conta quali prove sono successi; gli altri fattori pesano la probabilità della sequenza.

    Media e varianza della binomiale

    E[X]=np,Var(X)=np(1p)\mathbb{E}[X]=np,\qquad \operatorname{Var}(X)=np(1-p)

    La media è il numero atteso di successi. La varianza cresce con nn ma dipende anche da p(1p)p(1-p): se il risultato è quasi certo o quasi impossibile, la variabilità è bassa.

    Geometrica

    P(X=k)=(1p)k1p,k=1,2,P(X=k)=(1-p)^{k-1}p,\qquad k=1,2,\dots

    Questa convenzione fa rappresentare a XX il numero della prova in cui si osserva il primo successo. Le prove sono indipendenti e tutte con probabilità pp di successo. La media e la varianza sono:

    E[X]=1p,Var(X)=1pp2\mathbb{E}[X]=\frac{1}{p},\qquad \operatorname{Var}(X)=\frac{1-p}{p^2}

    Se il successo è raro, il tempo medio di attesa cresce.

    Proprietà senza memoria della geometrica

    P(X>s+tX>s)=P(X>t)P(X>s+t\mid X>s)=P(X>t)

    La distribuzione geometrica non ricorda quante prove senza successo sono già avvenute. Dopo una lunga attesa, il numero di prove ulteriori da aspettare ha la stessa distribuzione iniziale. Questa proprietà richiede indipendenza e probabilità costante di successo.

    Binomiale negativa

    P(X=k)=(k1r1)pr(1p)kr,k=r,r+1,P(X=k)=\binom{k-1}{r-1}p^r(1-p)^{k-r},\qquad k=r,r+1,\dots

    In questa parametrizzazione, XX è il numero della prova in cui si osserva il successo numero rr. Prima della prova kk devono esserci esattamente r1r-1 successi, e la prova kk deve essere un successo.

    Ipergeometrica

    P(X=k)=(Kk)(NKnk)(Nn)P(X=k)= \frac{\binom{K}{k}\binom{N-K}{n-k}}{\binom{N}{n}}

    La distribuzione ipergeometrica conta successi in un campione di ampiezza nn estratto senza reinserimento da una popolazione di NN elementi con KK successi. A differenza della binomiale, le prove non sono indipendenti: estrarre un elemento modifica la composizione residua.

    Media e varianza dell’ipergeometrica

    E[X]=nKN\mathbb{E}[X]=n\frac{K}{N}

    La media è analoga alla binomiale con p=K/Np=K/N. La varianza è:

    Var(X)=nKN(1KN)NnN1\operatorname{Var}(X)= n\frac{K}{N}\left(1-\frac{K}{N}\right)\frac{N-n}{N-1}

    Il fattore finale è la correzione per popolazione finita. Riduce la variabilità perché il campionamento senza reinserimento introduce dipendenza negativa.

    Poisson

    XPoisson(λ),P(X=k)=eλλkk!X\sim\operatorname{Poisson}(\lambda),\qquad P(X=k)=e^{-\lambda}\frac{\lambda^k}{k!}

    La Poisson modella conteggi di eventi rari in un intervallo di tempo, spazio o volume, quando gli eventi avvengono con intensità media λ\lambda e in modo indipendente su intervalli disgiunti.

    Media e varianza della Poisson

    E[X]=λ,Var(X)=λ\mathbb{E}[X]=\lambda,\qquad \operatorname{Var}(X)=\lambda

    Nella Poisson media e varianza coincidono. Se nei dati osservati la varianza è molto più grande della media, il modello di Poisson semplice può essere inadeguato.

    Approssimazione Poisson della binomiale

    Bin(n,p)Poisson(λ),λ=np\operatorname{Bin}(n,p)\approx \operatorname{Poisson}(\lambda), \qquad \lambda=np

    L’approssimazione è efficace quando nn è grande e pp è piccolo, con λ=np\lambda=np moderato. Interpreta la binomiale come conteggio di eventi rari su molte prove.

    Uniforme discreta

    P(X=k)=1n,k=1,,nP(X=k)=\frac{1}{n},\qquad k=1,\dots,n

    Tutti i valori hanno la stessa probabilità. La media e la varianza sono:

    E[X]=n+12,Var(X)=n2112\mathbb{E}[X]=\frac{n+1}{2},\qquad \operatorname{Var}(X)=\frac{n^2-1}{12}

    È il modello naturale per estrazioni simmetriche finite, come un dado ideale.

    Multinomiale

    P(N1=n1,,Nr=nr)=n!n1!nr!p1n1prnrP(N_1=n_1,\dots,N_r=n_r) = \frac{n!}{n_1!\dots n_r!}p_1^{n_1}\dots p_r^{n_r}

    La multinomiale estende la binomiale a rr categorie. I conteggi devono soddisfare n1++nr=nn_1+\dots+n_r=n e le probabilità p1++pr=1p_1+\dots+p_r=1. È il modello per classificazioni ripetute indipendenti.

    8. Distribuzioni continue notevoli

    Uniforme continua

    XU(a,b),fX(x)=1baaxbX\sim U(a,b),\qquad f_X(x)=\frac{1}{b-a}\quad a\le x\le b

    La distribuzione uniforme assegna uguale densità a tutti i punti dell’intervallo. Non significa che ogni singolo punto abbia probabilità positiva, ma che intervalli di uguale lunghezza hanno uguale probabilità.

    Media e varianza dell’uniforme continua

    E[X]=a+b2,Var(X)=(ba)212\mathbb{E}[X]=\frac{a+b}{2},\qquad \operatorname{Var}(X)=\frac{(b-a)^2}{12}

    La media è il punto medio dell’intervallo. La varianza cresce con il quadrato della lunghezza dell’intervallo.

    Esponenziale

    XExp(λ),fX(x)=λeλx,x0X\sim \operatorname{Exp}(\lambda),\qquad f_X(x)=\lambda e^{-\lambda x},\quad x\ge 0

    La distribuzione esponenziale modella tempi di attesa senza memoria con tasso costante λ\lambda. È molto usata in affidabilità elementare e processi di Poisson.

    Sopravvivenza esponenziale

    P(X>t)=eλtP(X>t)=e^{-\lambda t}

    La probabilità di sopravvivere oltre tt decresce esponenzialmente. La media e la varianza sono:

    E[X]=1λ,Var(X)=1λ2\mathbb{E}[X]=\frac{1}{\lambda},\qquad \operatorname{Var}(X)=\frac{1}{\lambda^2}

    Un tasso maggiore implica tempi medi più brevi.

    Proprietà senza memoria dell’esponenziale

    P(X>s+tX>s)=P(X>t)P(X>s+t\mid X>s)=P(X>t)

    L’esponenziale è l’analogo continuo della geometrica. Se un componente ha già funzionato per tempo ss, il tempo residuo ha la stessa distribuzione iniziale. Questa ipotesi è forte e corrisponde a un tasso di guasto costante.

    Gamma

    XΓ(α,λ),fX(x)=λαΓ(α)xα1eλx,x>0X\sim \Gamma(\alpha,\lambda),\qquad f_X(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},\quad x>0

    La gamma generalizza l’esponenziale. Può modellare il tempo necessario al verificarsi di più eventi in un processo di Poisson. Il parametro α\alpha è di forma, λ\lambda è di tasso.

    Media e varianza della gamma

    E[X]=αλ,Var(X)=αλ2\mathbb{E}[X]=\frac{\alpha}{\lambda},\qquad \operatorname{Var}(X)=\frac{\alpha}{\lambda^2}

    Aumentare α\alpha sposta la distribuzione verso valori maggiori e modifica la forma. Aumentare λ\lambda comprime la scala dei tempi.

    Erlang

    α=kN\alpha=k\in\mathbb{N}

    La distribuzione Erlang è una gamma con forma intera. Modella il tempo di attesa fino al k-esimo evento di un processo di Poisson. È utile in code, telecomunicazioni e affidabilità.

    Normale

    XN(μ,σ2)X\sim \mathcal{N}(\mu,\sigma^2)

    La densità è:

    fX(x)=1σ2πexp((xμ)22σ2)f_X(x)= \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

    La normale è il modello fondamentale per errori di misura, somme di effetti piccoli e distribuzioni limite. Il parametro μ\mu è la media, σ2\sigma^2 la varianza.

    Standardizzazione normale

    Z=XμσN(0,1)Z=\frac{X-\mu}{\sigma}\sim\mathcal{N}(0,1)

    Standardizzare sottrae la media e divide per la deviazione standard. Così ogni probabilità normale può essere ricondotta alla normale standard:

    P(Xx)=Φ(xμσ)P(X\le x)=\Phi\left(\frac{x-\mu}{\sigma}\right)

    dove Φ\Phi è la funzione di ripartizione della normale standard.

    Regola empirica della normale

    P(μσXμ+σ)0.68P(\mu-\sigma\le X\le \mu+\sigma)\approx 0.68

    Inoltre:

    P(μ2σXμ+2σ)0.95P(\mu-2\sigma\le X\le \mu+2\sigma)\approx 0.95

    e:

    P(μ3σXμ+3σ)0.997P(\mu-3\sigma\le X\le \mu+3\sigma)\approx 0.997

    Queste percentuali valgono per la normale, non per qualunque distribuzione. Sono utili per interpretare scostamenti standardizzati.

    Lognormale

    Y=eX,XN(μ,σ2)Y=e^X,\qquad X\sim\mathcal{N}(\mu,\sigma^2)

    Allora YY è lognormale. È positiva e spesso asimmetrica a destra. Modella grandezze ottenute come prodotto di molti fattori casuali positivi, per esempio alcune durate, concentrazioni, tempi e dimensioni.

    Media e varianza della lognormale

    E[Y]=eμ+σ2/2\mathbb{E}[Y]=e^{\mu+\sigma^2/2} Var(Y)=(eσ21)e2μ+σ2\operatorname{Var}(Y)=\left(e^{\sigma^2}-1\right)e^{2\mu+\sigma^2}

    La media della lognormale non è eμe^\mu, perché la trasformazione esponenziale è convessa. La variabilità su scala logaritmica aumenta la media sulla scala originale.

    Weibull

    F(t)=1e(t/η)β,t0F(t)=1-e^{-(t/\eta)^\beta},\qquad t\ge 0

    La Weibull è molto usata in affidabilità. η\eta è un parametro di scala, mentre β\beta controlla la forma del tasso di guasto. Se β=1\beta=1, si ottiene il caso esponenziale.

    Rayleigh

    f(x)=xσ2ex2/(2σ2),x0f(x)=\frac{x}{\sigma^2}e^{-x^2/(2\sigma^2)},\qquad x\ge 0

    La Rayleigh compare come modulo di un vettore bidimensionale con componenti normali indipendenti a media zero e stessa varianza. È usata in segnali, vibrazioni, errori radiali e telecomunicazioni.

    Beta

    f(x)=1B(α,β)xα1(1x)β1,0<x<1f(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}, \qquad 0<x<1

    La beta modella variabili limitate tra zero e uno, come proporzioni e frazioni. I parametri α\alpha e β\beta controllano forma e concentrazione. È importante anche in inferenza bayesiana per probabilità di successo.

    Chi-quadro

    χν2=i=1νZi2,ZiN(0,1) indipendenti\chi^2_\nu=\sum_{i=1}^{\nu}Z_i^2,\qquad Z_i\sim\mathcal{N}(0,1) \text{ indipendenti}

    La chi-quadro con ν\nu gradi di libertà nasce come somma di quadrati di normali standard indipendenti. È centrale nella stima della varianza, nei test di bontà dell’adattamento e nei test su tabelle di contingenza.

    t di Student

    T=ZU/ν,ZN(0,1),Uχν2T=\frac{Z}{\sqrt{U/\nu}},\qquad Z\sim\mathcal{N}(0,1),\quad U\sim\chi^2_\nu

    La t di Student compare quando si standardizza una media usando una varianza stimata dal campione. Ha code più pesanti della normale standard, soprattutto per pochi gradi di libertà.

    F di Fisher

    F=U1/ν1U2/ν2,U1χν12,U2χν22F=\frac{U_1/\nu_1}{U_2/\nu_2}, \qquad U_1\sim\chi^2_{\nu_1},\quad U_2\sim\chi^2_{\nu_2}

    La distribuzione F è rapporto di due chi-quadro indipendenti normalizzate per i rispettivi gradi di libertà. È usata per confrontare varianze, in ANOVA e nei test globali di regressione.

    9. Vettori aleatori e distribuzioni congiunte

    Vettore aleatorio

    X=(X1,,Xn)X=(X_1,\dots,X_n)

    Un vettore aleatorio raccoglie più variabili aleatorie nello stesso modello. Serve quando le grandezze osservate sono più di una: temperatura e pressione, carico e deformazione, tempo e costo, misure su più sensori.

    Ripartizione congiunta

    FX(x1,,xn)=P(X1x1,,Xnxn)F_X(x_1,\dots,x_n)=P(X_1\le x_1,\dots,X_n\le x_n)

    La ripartizione congiunta descrive simultaneamente tutte le componenti. Contiene informazione sulle distribuzioni marginali e sulla dipendenza tra variabili.

    Massa congiunta discreta

    pX,Y(x,y)=P(X=x,Y=y)p_{X,Y}(x,y)=P(X=x,Y=y)

    La probabilità congiunta assegna probabilità a coppie di valori. Le marginali si ottengono sommando:

    pX(x)=ypX,Y(x,y),pY(y)=xpX,Y(x,y)p_X(x)=\sum_y p_{X,Y}(x,y),\qquad p_Y(y)=\sum_x p_{X,Y}(x,y)

    La somma elimina la variabile che non interessa.

    Densità congiunta continua

    P((X,Y)D)=DfX,Y(x,y)dxdyP((X,Y)\in D)=\iint_D f_{X,Y}(x,y)\,dx\,dy

    La densità congiunta va integrata su regioni del piano. Le marginali si ottengono integrando:

    fX(x)=+fX,Y(x,y)dyf_X(x)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)\,dy fY(y)=+fX,Y(x,y)dxf_Y(y)=\int_{-\infty}^{+\infty}f_{X,Y}(x,y)\,dx

    Integrare su una variabile significa ignorarla, sommando tutti i suoi valori possibili.

    Indipendenza di variabili aleatorie

    FX,Y(x,y)=FX(x)FY(y)F_{X,Y}(x,y)=F_X(x)F_Y(y)

    Per variabili discrete, l’indipendenza equivale a:

    pX,Y(x,y)=pX(x)pY(y)p_{X,Y}(x,y)=p_X(x)p_Y(y)

    Per variabili continue con densità:

    fX,Y(x,y)=fX(x)fY(y)f_{X,Y}(x,y)=f_X(x)f_Y(y)

    L’indipendenza significa che conoscere una variabile non modifica la distribuzione dell’altra.

    Densità condizionata

    fXY(xy)=fX,Y(x,y)fY(y)f_{X\mid Y}(x\mid y)=\frac{f_{X,Y}(x,y)}{f_Y(y)}

    La formula vale quando fY(y)>0f_Y(y)>0. La densità condizionata descrive la distribuzione di XX fissato il valore di YY. È una versione continua della probabilità condizionata.

    Valore atteso condizionato discreto

    E[XY=y]=xxP(X=xY=y)\mathbb{E}[X\mid Y=y]=\sum_x x\,P(X=x\mid Y=y)

    Il valore atteso condizionato è una media aggiornata dopo aver osservato Y=yY=y. È una funzione del valore condizionante. In previsione statistica, E[XY]\mathbb{E}[X\mid Y] è spesso la migliore previsione quadratica di XX usando l’informazione contenuta in YY.

    Formula dell’attesa totale

    E[X]=E[E[XY]]\mathbb{E}[X]=\mathbb{E}\left[\mathbb{E}[X\mid Y]\right]

    La media complessiva si ottiene mediando le medie condizionate. È l’analogo per valori attesi della formula delle probabilità totali. Aiuta a decomporre problemi complessi in scenari.

    Formula della varianza totale

    Var(X)=E[Var(XY)]+Var(E[XY])\operatorname{Var}(X)= \mathbb{E}[\operatorname{Var}(X\mid Y)] + \operatorname{Var}(\mathbb{E}[X\mid Y])

    La variabilità totale è somma di variabilità media interna agli scenari e variabilità tra le medie degli scenari. Questa decomposizione è utile in analisi della varianza, modelli gerarchici e simulazioni.

    Covarianza

    Cov(X,Y)=E[(XμX)(YμY)]\operatorname{Cov}(X,Y)=\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]

    La covarianza misura la tendenza di due variabili a variare insieme. Se è positiva, valori sopra la media di una tendono ad associarsi a valori sopra la media dell’altra. Se è negativa, una tende ad aumentare quando l’altra diminuisce.

    Formula computazionale della covarianza

    Cov(X,Y)=E[XY]E[X]E[Y]\operatorname{Cov}(X,Y)=\mathbb{E}[XY]-\mathbb{E}[X]\mathbb{E}[Y]

    Questa forma è spesso più comoda. Se XX e YY sono indipendenti e hanno attese finite, allora E[XY]=E[X]E[Y]\mathbb{E}[XY]=\mathbb{E}[X]\mathbb{E}[Y], quindi la covarianza è zero. Il contrario non è sempre vero: covarianza nulla non implica indipendenza in generale.

    Coefficiente di correlazione

    ρXY=Cov(X,Y)σXσY\rho_{XY}= \frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}

    La correlazione è la covarianza normalizzata. È compresa tra 1-1 e 11. Misura dipendenza lineare, non dipendenza generica. Valori vicini a zero indicano assenza di relazione lineare, non necessariamente assenza di relazione.

    Varianza della somma

    Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)\operatorname{Var}(X+Y)= \operatorname{Var}(X)+\operatorname{Var}(Y)+2\operatorname{Cov}(X,Y)

    Il termine di covarianza corregge per la dipendenza. Se XX e YY sono incorrelate, il termine misto scompare. Per molte variabili:

    Var(i=1nXi)=i=1nVar(Xi)+2i<jCov(Xi,Xj)\operatorname{Var}\left(\sum_{i=1}^n X_i\right) = \sum_{i=1}^n\operatorname{Var}(X_i) +2\sum_{i<j}\operatorname{Cov}(X_i,X_j)

    Ignorare covarianze può sottostimare o sovrastimare molto l’incertezza totale.

    Matrice di covarianza

    Σ=E[(Xμ)(Xμ)T]\Sigma=\mathbb{E}\left[(X-\mu)(X-\mu)^T\right]

    La matrice di covarianza raccoglie varianze sulla diagonale e covarianze fuori diagonale. È simmetrica e positiva semidefinita. Descrive la dispersione multidimensionale di un vettore aleatorio.

    Normale multivariata

    XNn(μ,Σ)X\sim\mathcal{N}_n(\mu,\Sigma)

    La densità, quando Σ\Sigma è definita positiva, è:

    f(x)=1(2π)n/2Σ1/2exp(12(xμ)TΣ1(xμ))f(x)= \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left( -\frac12(x-\mu)^T\Sigma^{-1}(x-\mu) \right)

    La matrice Σ\Sigma determina forma, orientazione e scala degli ellissoidi di densità. La normale multivariata è fondamentale in stima, regressione, controllo qualità multivariato e modelli gaussiani.

    10. Somme, convergenza e teoremi limite

    Somma di variabili indipendenti

    Sn=X1++XnS_n=X_1+\dots+X_n

    Se le variabili sono indipendenti, molte proprietà della somma si semplificano. In particolare:

    E[Sn]=i=1nE[Xi]\mathbb{E}[S_n]=\sum_{i=1}^n\mathbb{E}[X_i]

    e, se sono indipendenti:

    Var(Sn)=i=1nVar(Xi)\operatorname{Var}(S_n)=\sum_{i=1}^n\operatorname{Var}(X_i)

    La seconda formula richiede assenza di covarianze.

    Media campionaria teorica

    Xn=1ni=1nXi\overline{X}_n=\frac{1}{n}\sum_{i=1}^n X_i

    Se XiX_i sono indipendenti e identicamente distribuite con media μ\mu e varianza σ2\sigma^2, allora:

    E[Xn]=μ,Var(Xn)=σ2n\mathbb{E}[\overline{X}_n]=\mu,\qquad \operatorname{Var}(\overline{X}_n)=\frac{\sigma^2}{n}

    La media campionaria ha la stessa media della popolazione ma varianza più piccola. Aumentare nn riduce l’incertezza media come 1/n1/n in varianza, cioè come 1/n1/\sqrt n in deviazione standard.

    Errore standard della media

    SE(Xn)=σn\operatorname{SE}(\overline{X}_n)=\frac{\sigma}{\sqrt n}

    L’errore standard misura la dispersione della media campionaria come stimatore della media vera. Non è la deviazione standard dei dati, ma della media dei dati. Questa distinzione è essenziale nell’inferenza.

    Legge debole dei grandi numeri

    XnPμ\overline{X}_n \xrightarrow{P} \mu

    La media campionaria converge in probabilità alla media teorica. Significa che, aumentando la dimensione del campione, diventa sempre meno probabile osservare una media lontana da μ\mu. La legge giustifica l’uso delle frequenze e delle medie campionarie come stime.

    Teorema centrale del limite

    Xnμσ/ndN(0,1)\frac{\overline{X}_n-\mu}{\sigma/\sqrt n} \xrightarrow{d} \mathcal{N}(0,1)

    Se XiX_i sono indipendenti e identicamente distribuite con media e varianza finite, la media standardizzata tende in distribuzione alla normale standard. Questo risultato spiega perché la normale compare in tanti problemi anche quando i dati originari non sono normali.

    Approssimazione normale della media

    XnN(μ,σ2n)\overline{X}_n\approx \mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)

    Per campioni abbastanza grandi, la distribuzione della media può essere approssimata con una normale. La bontà dell’approssimazione dipende dalla distribuzione di partenza: code pesanti e forte asimmetria richiedono campioni più grandi.

    Approssimazione normale della binomiale

    XBin(n,p)XN(np,np(1p))X\sim\operatorname{Bin}(n,p) \quad \Rightarrow \quad X\approx\mathcal{N}(np,np(1-p))

    L’approssimazione funziona quando npnp e n(1p)n(1-p) sono sufficientemente grandi. Per probabilità discrete si usa spesso la correzione di continuità:

    P(Xk)Φ(k+0.5npnp(1p))P(X\le k)\approx \Phi\left(\frac{k+0.5-np}{\sqrt{np(1-p)}}\right)

    Il termine 0.50.5 corregge il passaggio da conteggi discreti a intervalli continui.

    Convergenza in probabilità

    XnPXP(XnX>ε)0X_n\xrightarrow{P}X \quad \Longleftrightarrow \quad P(|X_n-X|>\varepsilon)\to 0

    Per ogni tolleranza positiva ε\varepsilon, la probabilità di errore maggiore di ε\varepsilon tende a zero. È la convergenza usata per definire consistenza degli stimatori.

    Convergenza in distribuzione

    XndXX_n\xrightarrow{d}X

    Significa che le funzioni di ripartizione convergono nei punti di continuità della distribuzione limite. È più debole della convergenza in probabilità ed è il linguaggio naturale del teorema centrale del limite.

    Delta method

    n(θ^nθ)dN(0,σ2)\sqrt n(\hat\theta_n-\theta)\xrightarrow{d}\mathcal{N}(0,\sigma^2)

    Se gg è derivabile in θ\theta, allora:

    n(g(θ^n)g(θ))dN(0,(g(θ))2σ2)\sqrt n\bigl(g(\hat\theta_n)-g(\theta)\bigr) \xrightarrow{d} \mathcal{N}\left(0,\bigl(g'(\theta)\bigr)^2\sigma^2\right)

    Il delta method propaga l’incertezza attraverso trasformazioni non lineari approssimate localmente con una derivata. È molto utile per stimare errori standard di funzioni di parametri.

    11. Statistica descrittiva

    Campione osservato

    x1,x2,,xnx_1,x_2,\dots,x_n

    Un campione osservato è una sequenza di dati numerici. Prima dell’osservazione si può modellare come variabili aleatorie X1,,XnX_1,\dots,X_n; dopo l’osservazione diventa una lista di valori fissati. La distinzione tra variabile aleatoria e valore osservato è fondamentale.

    Media campionaria

    xˉ=1ni=1nxi\bar x=\frac{1}{n}\sum_{i=1}^n x_i

    La media campionaria sintetizza il centro dei dati. È sensibile ai valori estremi: pochi dati molto grandi o molto piccoli possono spostarla sensibilmente.

    Varianza campionaria corretta

    s2=1n1i=1n(xixˉ)2s^2=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)^2

    Il denominatore n1n-1 corregge il bias nella stima della varianza della popolazione quando la media è stimata dallo stesso campione. La quantità n1n-1 è il numero di gradi di libertà residui dopo aver stimato xˉ\bar x.

    Deviazione standard campionaria

    s=s2s=\sqrt{s^2}

    Riporta la dispersione alla stessa unità di misura dei dati. È più leggibile della varianza, ma eredita la sensibilità ai valori estremi.

    Formula computazionale per la varianza campionaria

    s2=1n1(i=1nxi2nxˉ2)s^2=\frac{1}{n-1} \left(\sum_{i=1}^n x_i^2-n\bar x^2\right)

    La formula è algebricamente equivalente alla somma degli scarti quadratici. In calcolo numerico, però, per dati molto grandi e varianze piccole può soffrire cancellazione numerica; algoritmi stabili aggiornano media e varianza progressivamente.

    Mediana campionaria

    x~=x((n+1)/2)\tilde x=x_{((n+1)/2)}

    La formula vale in modo diretto per nn dispari dopo aver ordinato i dati. Per nn pari, si usa spesso la media dei due valori centrali:

    x~=x(n/2)+x(n/2+1)2\tilde x=\frac{x_{(n/2)}+x_{(n/2+1)}}{2}

    La mediana è robusta rispetto agli estremi: dipende dalla posizione ordinata, non dalla grandezza dei valori lontani.

    Quantili campionari

    q^px(np)\hat q_p \approx x_{(\lceil np\rceil)}

    Il quantile campionario di ordine pp è un valore sotto cui cade circa la frazione pp dei dati. Esistono diverse convenzioni di interpolazione; bisogna dichiarare quella usata quando i risultati devono essere riproducibili.

    Range

    R=x(n)x(1)R=x_{(n)}-x_{(1)}

    Il range è differenza tra massimo e minimo. È semplice ma molto sensibile agli outlier. In controllo qualità può dare un’indicazione rapida della dispersione in piccoli sottogruppi.

    Intervallo interquartile

    IQR=Q3Q1\operatorname{IQR}=Q_3-Q_1

    Misura l’ampiezza del 50 percento centrale dei dati. È più robusto del range e della deviazione standard in presenza di code o valori estremi.

    Frequenza relativa

    fj=njnf_j=\frac{n_j}{n}

    njn_j è il numero di osservazioni nella categoria o classe jj. La frequenza relativa è una stima empirica della probabilità della categoria. Le frequenze relative sommano a uno.

    Funzione di ripartizione empirica

    Fn(x)=1ni=1n1{xix}F_n(x)=\frac{1}{n}\sum_{i=1}^n \mathbf{1}_{\{x_i\le x\}}

    La ripartizione empirica conta la frazione di osservazioni non superiori a xx. È una stima non parametrica della funzione di ripartizione teorica. Cresce a gradini e salta in corrispondenza dei dati osservati.

    Covarianza campionaria

    sxy=1n1i=1n(xixˉ)(yiyˉ)s_{xy}=\frac{1}{n-1}\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)

    Misura la variazione congiunta di due serie di dati osservati a coppie. Il segno indica l’orientamento della relazione lineare. La scala dipende dalle unità di misura delle due variabili.

    Correlazione campionaria

    r=sxysxsyr=\frac{s_{xy}}{s_xs_y}

    La correlazione normalizza la covarianza e produce un numero tra 1-1 e 11. Non misura causalità e non cattura necessariamente relazioni non lineari. Va sempre accompagnata da un grafico di dispersione quando possibile.

    Asimmetria campionaria

    g1=1ni=1n(xixˉ)3(1ni=1n(xixˉ)2)3/2g_1=\frac{\frac1n\sum_{i=1}^n (x_i-\bar x)^3}{\left(\frac1n\sum_{i=1}^n (x_i-\bar x)^2\right)^{3/2}}

    L’asimmetria misura se la distribuzione empirica ha una coda più pronunciata a destra o a sinistra. Valori positivi indicano coda destra più lunga; valori negativi indicano coda sinistra più lunga.

    Curtosi campionaria

    g2=1ni=1n(xixˉ)4(1ni=1n(xixˉ)2)23g_2=\frac{\frac1n\sum_{i=1}^n (x_i-\bar x)^4}{\left(\frac1n\sum_{i=1}^n (x_i-\bar x)^2\right)^2}-3

    La curtosi in eccesso confronta la pesantezza delle code con quella della normale, per cui il valore teorico è zero. Valori alti suggeriscono code pesanti o outlier frequenti.

    12. Campionamento e distribuzioni campionarie

    Campione casuale semplice

    X1,,Xn indipendenti e identicamente distribuiteX_1,\dots,X_n \text{ indipendenti e identicamente distribuite}

    Questa ipotesi, spesso abbreviata come i.i.d., significa che le osservazioni hanno la stessa distribuzione e non si influenzano tra loro. Molte formule inferenziali classiche dipendono da questa ipotesi.

    Media campionaria come stimatore

    X=1ni=1nXi\overline{X}=\frac{1}{n}\sum_{i=1}^n X_i

    Prima di osservare i dati, la media campionaria è una variabile aleatoria. Dopo l’osservazione assume il valore numerico xˉ\bar x. Come stimatore di μ\mu, ha:

    E[X]=μ\mathbb{E}[\overline{X}]=\mu

    quindi è non distorta.

    Varianza campionaria come stimatore

    S2=1n1i=1n(XiX)2S^2=\frac{1}{n-1}\sum_{i=1}^n (X_i-\overline{X})^2

    Se le osservazioni sono i.i.d. con varianza σ2\sigma^2, allora:

    E[S2]=σ2\mathbb{E}[S^2]=\sigma^2

    Il denominatore n1n-1 rende lo stimatore non distorto.

    Distribuzione della media per popolazione normale

    XiN(μ,σ2)XN(μ,σ2n)X_i\sim\mathcal{N}(\mu,\sigma^2) \quad \Rightarrow \quad \overline{X}\sim\mathcal{N}\left(\mu,\frac{\sigma^2}{n}\right)

    Se i dati sono normali, la media campionaria è esattamente normale per ogni nn, non solo asintoticamente. Questo rende esatti molti intervalli e test classici.

    Distribuzione della varianza campionaria normale

    (n1)S2σ2χn12\frac{(n-1)S^2}{\sigma^2}\sim\chi^2_{n-1}

    La formula vale per campione da popolazione normale. È la base degli intervalli di confidenza per la varianza e dei test sulla varianza.

    Statistica t per media con varianza ignota

    T=XμS/ntn1T=\frac{\overline{X}-\mu}{S/\sqrt n}\sim t_{n-1}

    La sostituzione di σ\sigma con SS introduce incertezza aggiuntiva, rappresentata dalla distribuzione t. Quando nn cresce, la t si avvicina alla normale standard.

    Proporzione campionaria

    p^=Xn\hat p=\frac{X}{n}

    Se XBin(n,p)X\sim\operatorname{Bin}(n,p), p^\hat p è la frequenza relativa di successi. Ha:

    E[p^]=p,Var(p^)=p(1p)n\mathbb{E}[\hat p]=p,\qquad \operatorname{Var}(\hat p)=\frac{p(1-p)}{n}

    È lo stimatore naturale di una probabilità di successo.

    Approssimazione normale della proporzione

    p^pp(1p)/nN(0,1)\frac{\hat p-p}{\sqrt{p(1-p)/n}}\approx \mathcal{N}(0,1)

    L’approssimazione è ragionevole quando il numero atteso di successi e insuccessi è abbastanza grande. Se pp è vicino a zero o uno, possono servire metodi esatti o intervalli corretti.

    13. Stima puntuale

    Parametro e stimatore

    θparametro ignoto,θ^=T(X1,,Xn)\theta \quad \text{parametro ignoto},\qquad \hat\theta=T(X_1,\dots,X_n)

    Il parametro è una quantità del modello, fissa ma ignota. Lo stimatore è una funzione del campione, quindi una variabile aleatoria prima dell’osservazione. La stima è il valore numerico ottenuto sui dati osservati.

    Bias

    Bias(θ^)=E[θ^]θ\operatorname{Bias}(\hat\theta)=\mathbb{E}[\hat\theta]-\theta

    Il bias misura lo scostamento medio dello stimatore dal parametro vero. Uno stimatore è non distorto se il bias è zero. Non distorsione non significa automaticamente precisione: serve anche bassa varianza.

    Errore quadratico medio

    MSE(θ^)=E[(θ^θ)2]\operatorname{MSE}(\hat\theta)=\mathbb{E}\left[(\hat\theta-\theta)^2\right]

    L’MSE combina bias e varianza:

    MSE(θ^)=Var(θ^)+Bias(θ^)2\operatorname{MSE}(\hat\theta)=\operatorname{Var}(\hat\theta)+\operatorname{Bias}(\hat\theta)^2

    Uno stimatore leggermente distorto può avere MSE minore di uno non distorto se riduce molto la varianza.

    Consistenza

    θ^nPθ\hat\theta_n\xrightarrow{P}\theta

    Uno stimatore è consistente se converge in probabilità al parametro vero al crescere del campione. La consistenza è una proprietà asintotica: non garantisce che per piccoli campioni la stima sia accurata.

    Efficienza relativa

    Eff(θ^1,θ^2)=Var(θ^2)Var(θ^1)\operatorname{Eff}(\hat\theta_1,\hat\theta_2)= \frac{\operatorname{Var}(\hat\theta_2)}{\operatorname{Var}(\hat\theta_1)}

    A parità di non distorsione, lo stimatore con varianza minore è più efficiente. La definizione può variare nelle convenzioni, quindi va sempre chiarito quale rapporto si usa.

    Metodo dei momenti

    mk(θ)=Eθ[Xk]m_k(\theta)=\mathbb{E}_\theta[X^k]

    Il metodo dei momenti uguaglia momenti teorici e momenti campionari:

    mk(θ)=1ni=1nXikm_k(\theta)=\frac1n\sum_{i=1}^n X_i^k

    Si ottiene un sistema di equazioni per stimare i parametri. È spesso semplice, ma non sempre ottimale in efficienza.

    Verosimiglianza

    L(θ)=i=1nfθ(xi)L(\theta)=\prod_{i=1}^n f_\theta(x_i)

    Per dati indipendenti, la verosimiglianza è il prodotto delle densità o masse valutate nei dati osservati. Come funzione di θ\theta, misura quanto il modello con quel parametro rende plausibili i dati osservati.

    Log-verosimiglianza

    (θ)=logL(θ)=i=1nlogfθ(xi)\ell(\theta)=\log L(\theta)=\sum_{i=1}^n \log f_\theta(x_i)

    Il log trasforma il prodotto in somma. Massimizzare \ell equivale a massimizzare LL, perché il logaritmo è crescente. La log-verosimiglianza è più stabile numericamente e più facile da derivare.

    Massima verosimiglianza

    θ^MLE=argmaxθL(θ)\hat\theta_{\operatorname{MLE}}=\arg\max_{\theta} L(\theta)

    Lo stimatore di massima verosimiglianza sceglie il parametro che massimizza la plausibilità dei dati osservati. Spesso si trova risolvendo:

    ddθ(θ)=0\frac{d}{d\theta}\ell(\theta)=0

    e verificando massimo, vincoli e bordo dello spazio parametrico.

    Informazione di Fisher

    I(θ)=Eθ[(θlogfθ(X))2]I(\theta)=\mathbb{E}_\theta\left[ \left(\frac{\partial}{\partial\theta}\log f_\theta(X)\right)^2 \right]

    L’informazione di Fisher misura quanta informazione sul parametro è contenuta in un’osservazione. Maggiore informazione implica, in linea di principio, stime più precise.

    Limite di Cramér-Rao

    Var(θ^)1nI(θ)\operatorname{Var}(\hat\theta)\ge \frac{1}{nI(\theta)}

    Per stimatori non distorti sotto ipotesi regolari, la varianza non può scendere sotto questo limite. È un riferimento teorico per valutare l’efficienza di uno stimatore.

    Sufficienza intuitiva

    T(X1,,Xn)T(X_1,\dots,X_n)

    Una statistica è sufficiente per θ\theta se conserva tutta l’informazione del campione riguardo a θ\theta. In pratica, dopo aver conosciuto TT, il resto dei dati non aggiunge informazione sul parametro. È una nozione centrale per compressione statistica del campione.

    14. Intervalli di confidenza

    Forma generale

    θ^±qα/2SE(θ^)\hat\theta \pm q_{\alpha/2}\operatorname{SE}(\hat\theta)

    Un intervallo di confidenza combina stima puntuale, quantile della distribuzione di riferimento ed errore standard. Il livello 1α1-\alpha non significa che il parametro casualmente cada nell’intervallo dopo aver osservato i dati; nel quadro frequentista, il metodo produce intervalli che coprono il parametro nel lungo periodo con frequenza 1α1-\alpha.

    Intervallo per media normale con varianza nota

    X±z1α/2σn\overline{X}\pm z_{1-\alpha/2}\frac{\sigma}{\sqrt n}

    La formula vale se la popolazione è normale o se nn è grande e σ\sigma è nota. Il quantile z1α/2z_{1-\alpha/2} appartiene alla normale standard. Per il 95 percento, è circa 1.961.96.

    Intervallo per media con varianza ignota

    X±t1α/2,n1Sn\overline{X}\pm t_{1-\alpha/2,n-1}\frac{S}{\sqrt n}

    Quando σ\sigma è ignota, si usa la deviazione standard campionaria SS e il quantile t con n1n-1 gradi di libertà. È esatto per popolazione normale e spesso approssimato per campioni grandi.

    Intervallo per proporzione

    p^±z1α/2p^(1p^)n\hat p\pm z_{1-\alpha/2} \sqrt{\frac{\hat p(1-\hat p)}{n}}

    È l’intervallo normale approssimato per una proporzione. Può essere impreciso per campioni piccoli o proporzioni vicine a zero o uno. In quei casi sono preferibili intervalli più robusti, come Wilson o metodi esatti.

    Intervallo di Wilson per proporzione

    p^+z22n±zp^(1p^)n+z24n21+z2n\frac{ \hat p+\frac{z^2}{2n} \pm z\sqrt{\frac{\hat p(1-\hat p)}{n}+\frac{z^2}{4n^2}} } {1+\frac{z^2}{n}}

    L’intervallo di Wilson corregge alcune debolezze dell’intervallo normale semplice, soprattutto con campioni piccoli o proporzioni estreme. È spesso più affidabile senza diventare troppo complesso.

    Intervallo per varianza normale

    ((n1)S2χ1α/2,n12,(n1)S2χα/2,n12)\left( \frac{(n-1)S^2}{\chi^2_{1-\alpha/2,n-1}}, \frac{(n-1)S^2}{\chi^2_{\alpha/2,n-1}} \right)

    La formula deriva dalla distribuzione chi-quadro della varianza campionaria per dati normali. I quantili appaiono invertiti perché la quantità ignota σ2\sigma^2 è al denominatore della statistica pivot.

    Intervallo per differenza tra medie indipendenti con varianze note

    (XY)±z1α/2σX2nX+σY2nY(\overline{X}-\overline{Y}) \pm z_{1-\alpha/2} \sqrt{\frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}}

    La varianza della differenza è somma delle varianze delle due medie se i campioni sono indipendenti. La formula è utile per confrontare due processi, due materiali o due condizioni operative.

    Intervallo per differenza tra proporzioni

    (p^1p^2)±z1α/2p^1(1p^1)n1+p^2(1p^2)n2(\hat p_1-\hat p_2) \pm z_{1-\alpha/2} \sqrt{ \frac{\hat p_1(1-\hat p_1)}{n_1} + \frac{\hat p_2(1-\hat p_2)}{n_2} }

    Serve per confrontare due tassi di successo, difetto o guasto. Richiede campioni indipendenti e approssimazione normale ragionevole.

    Ampiezza e dimensione campionaria per media

    n(z1α/2σE)2n\ge \left(\frac{z_{1-\alpha/2}\sigma}{E}\right)^2

    EE è il margine di errore desiderato. La formula dice che dimezzare l’errore richiede circa quadruplicare il campione. Se σ\sigma non è nota, si usa una stima preliminare.

    Ampiezza e dimensione campionaria per proporzione

    nz1α/22p(1p)E2n\ge \frac{z_{1-\alpha/2}^2 p(1-p)}{E^2}

    Se pp non è noto, la scelta conservativa è p=0.5p=0.5, che massimizza p(1p)p(1-p). Anche qui la dimensione cresce con il quadrato dell’inverso del margine di errore.

    15. Test di ipotesi

    Ipotesi nulla e alternativa

    H0:θ=θ0,H1:θθ0H_0:\theta=\theta_0,\qquad H_1:\theta\ne\theta_0

    L’ipotesi nulla rappresenta il modello di riferimento da mettere alla prova. L’alternativa rappresenta ciò che si vuole rilevare. Un test non dimostra che H0H_0 sia vera: decide se i dati sono sufficientemente incompatibili con H0H_0 rispetto a una soglia di rischio.

    Livello di significatività

    α=P(rifiutare H0H0 vera)\alpha=P(\text{rifiutare } H_0\mid H_0 \text{ vera})

    α\alpha è la probabilità massima tollerata di errore di primo tipo. Scegliere α=0.05\alpha=0.05 significa accettare un rischio del 5 percento di rifiutare una nulla vera, nel lungo periodo.

    Errore di secondo tipo e potenza

    β=P(non rifiutare H0H1 vera)\beta=P(\text{non rifiutare } H_0\mid H_1 \text{ vera})

    La potenza è:

    1β1-\beta

    La potenza misura la capacità del test di rilevare un effetto reale. A parità di tutto il resto, aumenta con la dimensione campionaria e con l’entità dell’effetto.

    Statistica test

    T=T(X1,,Xn)T=T(X_1,\dots,X_n)

    La statistica test riassume i dati in una quantità confrontabile con una distribuzione nota sotto H0H_0. La regione critica contiene i valori di TT considerati troppo estremi per essere compatibili con H0H_0.

    p-value

    p-value=PH0(osservare un risultato almeno cosıˋ estremo)p\text{-value}=P_{H_0}(\text{osservare un risultato almeno così estremo})

    Il p-value è calcolato assumendo vera l’ipotesi nulla. Non è la probabilità che H0H_0 sia vera. Un p-value piccolo indica che i dati sarebbero rari sotto H0H_0.

    Regola decisionale

    p-valueαrifiuta H0p\text{-value}\le \alpha \quad \Longrightarrow \quad \text{rifiuta } H_0

    Se il p-value è sotto la soglia scelta, il risultato è statisticamente significativo al livello α\alpha. La significatività statistica non coincide necessariamente con importanza pratica o ingegneristica.

    Test z per media con varianza nota

    Z=Xμ0σ/nZ=\frac{\overline{X}-\mu_0}{\sigma/\sqrt n}

    Sotto H0:μ=μ0H_0:\mu=\mu_0, se le ipotesi sono soddisfatte, ZZ segue una normale standard. Si usa quando la varianza è nota o quando l’approssimazione normale è giustificata e σ\sigma può essere considerata nota.

    Test t per media con varianza ignota

    T=Xμ0S/nT=\frac{\overline{X}-\mu_0}{S/\sqrt n}

    Sotto normalità della popolazione, TT segue una t con n1n-1 gradi di libertà. È il test più comune per la media di un singolo campione quando la varianza è stimata.

    Test su proporzione

    Z=p^p0p0(1p0)/nZ= \frac{\hat p-p_0}{\sqrt{p_0(1-p_0)/n}}

    Nel denominatore si usa p0p_0 perché la distribuzione della statistica è calcolata sotto l’ipotesi nulla. L’approssimazione normale richiede conteggi attesi sufficientemente grandi.

    Test chi-quadro per varianza

    χ2=(n1)S2σ02\chi^2= \frac{(n-1)S^2}{\sigma_0^2}

    Sotto H0:σ2=σ02H_0:\sigma^2=\sigma_0^2 e normalità, la statistica segue una chi-quadro con n1n-1 gradi di libertà. È sensibile alla violazione dell’ipotesi di normalità.

    Test F per confronto tra varianze

    F=S12S22F=\frac{S_1^2}{S_2^2}

    Se i due campioni sono indipendenti e normali, sotto uguaglianza delle varianze la statistica segue una F con gradi di libertà n11n_1-1 e n21n_2-1. Spesso si mette al numeratore la varianza campionaria maggiore per lavorare nella coda destra.

    Test t per due medie con varianze uguali

    T=XYSp1nX+1nYT= \frac{\overline{X}-\overline{Y}} {S_p\sqrt{\frac1{n_X}+\frac1{n_Y}}}

    dove la varianza pooled è:

    Sp2=(nX1)SX2+(nY1)SY2nX+nY2S_p^2= \frac{(n_X-1)S_X^2+(n_Y-1)S_Y^2}{n_X+n_Y-2}

    La formula assume varianze uguali nelle due popolazioni. Se l’ipotesi è dubbia, è spesso preferibile il test di Welch.

    Test di Welch

    T=XYSX2/nX+SY2/nYT= \frac{\overline{X}-\overline{Y}} {\sqrt{S_X^2/n_X+S_Y^2/n_Y}}

    Il test di Welch non assume varianze uguali. I gradi di libertà sono approssimati con la formula di Welch-Satterthwaite. È una scelta robusta per confronti tra due medie con varianze campionarie diverse.

    Test per dati appaiati

    Di=XiYi,T=DSD/nD_i=X_i-Y_i,\qquad T=\frac{\overline{D}}{S_D/\sqrt n}

    Quando le osservazioni sono accoppiate, il confronto va fatto sulle differenze entro coppia. Questo elimina parte della variabilità tra unità e aumenta la potenza se l’appaiamento è informativo.

    Test chi-quadro di bontà dell’adattamento

    χ2=j=1k(OjEj)2Ej\chi^2=\sum_{j=1}^k \frac{(O_j-E_j)^2}{E_j}

    OjO_j sono frequenze osservate, EjE_j frequenze attese sotto il modello. La statistica misura discrepanza relativa tra dati e attese. Le frequenze attese dovrebbero essere sufficientemente grandi per giustificare l’approssimazione chi-quadro.

    Test chi-quadro di indipendenza

    Eij=RiCjnE_{ij}=\frac{R_iC_j}{n}

    In una tabella di contingenza, RiR_i è il totale della riga ii, CjC_j il totale della colonna jj. Sotto indipendenza, l’atteso nella cella è prodotto dei marginali diviso per il totale. La statistica è:

    χ2=i,j(OijEij)2Eij\chi^2=\sum_{i,j}\frac{(O_{ij}-E_{ij})^2}{E_{ij}}

    Misura quanto la tabella osservata si discosta da quella attesa sotto indipendenza.

    16. Regressione lineare

    Modello di regressione lineare semplice

    Y=β0+β1X+εY=\beta_0+\beta_1X+\varepsilon

    YY è la risposta, XX il predittore, β0\beta_0 l’intercetta, β1\beta_1 la pendenza ed ε\varepsilon l’errore. Il modello assume che la media condizionata di YY sia una funzione lineare di XX.

    Stime dei minimi quadrati

    β^1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2\hat\beta_1=\frac{\sum_{i=1}^n (x_i-\bar x)(y_i-\bar y)} {\sum_{i=1}^n (x_i-\bar x)^2} β^0=yˉβ^1xˉ\hat\beta_0=\bar y-\hat\beta_1\bar x

    La pendenza stimata è covarianza campionaria divisa per varianza campionaria di xx, a fattori comuni cancellati. L’intercetta è scelta in modo che la retta passi per il punto medio (xˉ,yˉ)(\bar x,\bar y).

    Valori stimati e residui

    y^i=β^0+β^1xi,ei=yiy^i\hat y_i=\hat\beta_0+\hat\beta_1x_i,\qquad e_i=y_i-\hat y_i

    Il valore stimato è la previsione del modello sul punto osservato. Il residuo è l’errore osservato. Analizzare i residui serve a controllare linearità, varianza costante, outlier e struttura non modellata.

    Somma dei quadrati residui

    SSE=i=1nei2\operatorname{SSE}=\sum_{i=1}^n e_i^2

    I minimi quadrati scelgono i coefficienti che minimizzano SSE. Penalizzare i quadrati rende il problema derivabile e dà più peso agli errori grandi.

    Decomposizione della variabilità

    SST=SSR+SSE\operatorname{SST}=\operatorname{SSR}+\operatorname{SSE}

    dove:

    SST=i=1n(yiyˉ)2\operatorname{SST}=\sum_{i=1}^n (y_i-\bar y)^2 SSR=i=1n(y^iyˉ)2\operatorname{SSR}=\sum_{i=1}^n (\hat y_i-\bar y)^2

    SST è variabilità totale della risposta, SSR è variabilità spiegata dal modello, SSE è variabilità residua. La decomposizione vale con intercetta nel modello.

    Coefficiente di determinazione

    R2=SSRSST=1SSESSTR^2=\frac{\operatorname{SSR}}{\operatorname{SST}}=1-\frac{\operatorname{SSE}}{\operatorname{SST}}

    R2R^2 misura la frazione di variabilità campionaria di YY spiegata dal modello lineare. Non garantisce causalità, correttezza del modello o buona capacità predittiva fuori dal dominio osservato.

    Modello lineare multiplo

    y=Xβ+εy=X\beta+\varepsilon

    XX è la matrice del disegno, β\beta il vettore dei coefficienti, ε\varepsilon il vettore degli errori. Ogni riga di XX rappresenta un’osservazione, ogni colonna un predittore o un termine del modello.

    Stima dei minimi quadrati multipla

    β^=(XTX)1XTy\hat\beta=(X^TX)^{-1}X^Ty

    La formula richiede che XTXX^TX sia invertibile, cioè che le colonne di XX siano linearmente indipendenti. Se c’è multicollinearità perfetta, i coefficienti non sono identificabili in modo unico.

    Equazioni normali

    XT(yXβ^)=0X^T(y-X\hat\beta)=0

    I residui sono ortogonali a tutte le colonne della matrice del disegno. Questa è la condizione geometrica dei minimi quadrati: la previsione è la proiezione ortogonale di yy sullo spazio generato dai predittori.

    Stima della varianza degli errori

    σ^2=SSEnp\hat\sigma^2=\frac{\operatorname{SSE}}{n-p}

    pp è il numero di parametri stimati, inclusa l’intercetta se presente. Il denominatore npn-p è il numero di gradi di libertà residui.

    Varianza dei coefficienti stimati

    Var(β^)=σ2(XTX)1\operatorname{Var}(\hat\beta)=\sigma^2(X^TX)^{-1}

    Sotto le ipotesi classiche, questa matrice descrive l’incertezza dei coefficienti. In pratica σ2\sigma^2 viene sostituita da σ^2\hat\sigma^2. Diagonali grandi indicano coefficienti stimati con scarsa precisione.

    Test t su un coefficiente

    Tj=β^jβj,0SE(β^j)T_j=\frac{\hat\beta_j-\beta_{j,0}}{\operatorname{SE}(\hat\beta_j)}

    Serve a verificare se un coefficiente differisce da un valore ipotizzato, spesso zero. Il test dipende dal modello completo: un coefficiente misura l’effetto del predittore mantenendo fissi gli altri predittori inclusi.

    Test F globale di regressione

    F=SSR/(p1)SSE/(np)F=\frac{\operatorname{SSR}/(p-1)}{\operatorname{SSE}/(n-p)}

    Nel modello con intercetta, il test globale verifica se almeno un predittore ha coefficiente non nullo. Confronta variabilità spiegata per grado di libertà e variabilità residua per grado di libertà.

    Predizione

    y^0=x0Tβ^\hat y_0=x_0^T\hat\beta

    La previsione in un nuovo punto x0x_0 si ottiene applicando i coefficienti stimati. L’incertezza della previsione cresce quando x0x_0 è lontano dalla regione dei dati osservati. Interpolare è molto più affidabile che estrapolare.

    17. ANOVA e confronto tra gruppi

    Modello ANOVA a un fattore

    Yij=μ+τi+εijY_{ij}=\mu+\tau_i+\varepsilon_{ij}

    ii indica il gruppo, jj l’osservazione nel gruppo. μ\mu è la media generale, τi\tau_i l’effetto del gruppo. L’obiettivo è capire se le medie dei gruppi possono essere considerate uguali o se almeno una differisce.

    Ipotesi ANOVA

    H0:μ1=μ2==μkH_0:\mu_1=\mu_2=\dots=\mu_k

    L’alternativa è che almeno una media sia diversa. Il test non dice automaticamente quali gruppi differiscono: per quello servono confronti post-hoc o contrasti pianificati.

    Somma dei quadrati tra gruppi

    SSB=i=1kni(yˉiyˉ)2\operatorname{SSB}=\sum_{i=1}^k n_i(\bar y_i-\bar y)^2

    Misura quanto le medie dei gruppi si discostano dalla media generale, pesando per le numerosità. Se le medie di gruppo sono molto diverse, SSB è grande.

    Somma dei quadrati entro gruppi

    SSW=i=1kj=1ni(yijyˉi)2\operatorname{SSW}=\sum_{i=1}^k\sum_{j=1}^{n_i}(y_{ij}-\bar y_i)^2

    Misura la variabilità interna ai gruppi. È la variabilità non spiegata dall’appartenenza al gruppo.

    Statistica F dell’ANOVA

    F=SSB/(k1)SSW/(nk)F=\frac{\operatorname{SSB}/(k-1)}{\operatorname{SSW}/(n-k)}

    Il numeratore è la variabilità media tra gruppi; il denominatore è la variabilità media entro gruppi. Se H0H_0 è vera, queste due quantità dovrebbero essere comparabili. Valori grandi di FF indicano differenze tra medie più grandi di quanto atteso dalla variabilità interna.

    Decomposizione ANOVA

    SST=SSB+SSW\operatorname{SST}=\operatorname{SSB}+\operatorname{SSW}

    La variabilità totale si separa in variabilità spiegata dal fattore e variabilità residua. Questa identità è analoga alla decomposizione della regressione lineare.

    Dimensione dell’effetto eta quadrato

    η2=SSBSST\eta^2=\frac{\operatorname{SSB}}{\operatorname{SST}}

    η2\eta^2 misura la quota di variabilità totale attribuibile al fattore. È una misura di importanza pratica, non solo di significatività statistica.

    18. Affidabilità, rischio e tempi di guasto

    Tempo al guasto

    T0T\ge 0

    TT rappresenta la durata fino al guasto di un componente o sistema. È una variabile aleatoria non negativa. La sua distribuzione descrive il comportamento affidabilistico.

    Funzione di affidabilità

    R(t)=P(T>t)=1FT(t)R(t)=P(T>t)=1-F_T(t)

    R(t)R(t) è la probabilità che il sistema funzioni oltre il tempo tt. Decresce con tt e vale R(0)=1R(0)=1 se il sistema è inizialmente funzionante con certezza.

    Densità di guasto

    fT(t)=R(t)f_T(t)=-R'(t)

    Se la distribuzione è continua, la densità di guasto è la derivata negativa della sopravvivenza. La densità descrive dove si concentra probabilisticamente il tempo di guasto.

    Tasso di guasto

    h(t)=fT(t)R(t)h(t)=\frac{f_T(t)}{R(t)}

    Il tasso di guasto è una probabilità istantanea condizionata alla sopravvivenza fino a tt. Non è una probabilità pura, perché ha dimensione inversa del tempo. Interpreta il rischio residuo di guasto.

    Affidabilità da tasso di guasto

    R(t)=exp(0th(u)du)R(t)=\exp\left(-\int_0^t h(u)\,du\right)

    Questa formula ricostruisce la sopravvivenza dal tasso di guasto. Se il tasso è costante h(u)=λh(u)=\lambda, si ottiene:

    R(t)=eλtR(t)=e^{-\lambda t}

    cioè il modello esponenziale.

    MTTF

    MTTF=E[T]=0R(t)dt\operatorname{MTTF}=\mathbb{E}[T]=\int_0^\infty R(t)\,dt

    Per variabili non negative, il valore atteso può essere calcolato integrando la funzione di sopravvivenza. MTTF significa mean time to failure ed è una misura media di durata fino al guasto.

    Sistema in serie

    Rserie(t)=i=1nRi(t)R_{\text{serie}}(t)=\prod_{i=1}^n R_i(t)

    La formula vale per componenti indipendenti quando il sistema funziona solo se tutti i componenti funzionano. Il sistema in serie è più fragile dei singoli componenti: basta un guasto per fermarlo.

    Sistema in parallelo

    Rparallelo(t)=1i=1n(1Ri(t))R_{\text{parallelo}}(t)=1-\prod_{i=1}^n\bigl(1-R_i(t)\bigr)

    Il sistema funziona se almeno un componente funziona. Si calcola il complementare: tutti i componenti sono guasti. La formula richiede indipendenza dei tempi di guasto.

    Disponibilità stazionaria

    A=MTTFMTTF+MTTRA=\frac{\operatorname{MTTF}}{\operatorname{MTTF}+\operatorname{MTTR}}

    La disponibilità considera sia guasti sia riparazioni. MTTR è il tempo medio di riparazione. Un sistema può avere guasti relativamente frequenti ma alta disponibilità se viene riparato molto rapidamente.

    19. Processi stocastici essenziali

    Processo stocastico

    {Xt:tT}\{X_t:t\in T\}

    Un processo stocastico è una famiglia di variabili aleatorie indicizzate dal tempo o da un altro parametro. Se TT è discreto, si scrive spesso X0,X1,X_0,X_1,\dots; se è continuo, X(t)X(t).

    Processo di Bernoulli

    XnBernoulli(p)X_n\sim\operatorname{Bernoulli}(p)

    Una successione di prove Bernoulli indipendenti con stessa probabilità pp genera conteggi binomiali. È il modello base per successi e insuccessi ripetuti.

    Processo di Poisson

    N(t)Poisson(λt)N(t)\sim\operatorname{Poisson}(\lambda t)

    N(t)N(t) conta il numero di eventi avvenuti entro il tempo tt. Il parametro λ\lambda è l’intensità media per unità di tempo. Il processo ha incrementi indipendenti e stazionari.

    Tempi interarrivo nel processo di Poisson

    TiExp(λ)T_i\sim\operatorname{Exp}(\lambda)

    Nel processo di Poisson, i tempi tra eventi consecutivi sono esponenziali indipendenti con lo stesso tasso λ\lambda. Questo collega conteggi Poisson e tempi di attesa esponenziali.

    Catena di Markov discreta

    P(Xn+1=jXn=i,Xn1,,X0)=P(Xn+1=jXn=i)P(X_{n+1}=j\mid X_n=i,X_{n-1},\dots,X_0) =P(X_{n+1}=j\mid X_n=i)

    La proprietà di Markov dice che, dato lo stato presente, il futuro non dipende dal passato. È un modello di memoria corta, adatto a sistemi che evolvono per stati.

    Matrice di transizione

    P=(pij),pij=P(Xn+1=jXn=i)P=(p_{ij}),\qquad p_{ij}=P(X_{n+1}=j\mid X_n=i)

    Ogni riga della matrice di transizione contiene probabilità e quindi somma a uno:

    jpij=1\sum_j p_{ij}=1

    La matrice descrive le probabilità di passaggio da uno stato all’altro in un passo.

    Distribuzione dopo n passi

    πn=π0Pn\pi_n=\pi_0P^n

    Se π0\pi_0 è la distribuzione iniziale sugli stati, moltiplicare per PnP^n dà la distribuzione dopo nn passi. Le potenze della matrice di transizione descrivono l’evoluzione probabilistica.

    Distribuzione stazionaria

    π=πP,iπi=1\pi=\pi P,\qquad \sum_i \pi_i=1

    Una distribuzione stazionaria resta invariata dopo una transizione. Se la catena parte da π\pi, mantiene la stessa distribuzione a ogni passo. In molte catene regolari, πn\pi_n converge a π\pi indipendentemente dallo stato iniziale.

    Processo stazionario in senso debole

    E[Xt]=μ,Cov(Xt,Xt+h)=γ(h)\mathbb{E}[X_t]=\mu,\qquad \operatorname{Cov}(X_t,X_{t+h})=\gamma(h)

    La media è costante nel tempo e la covarianza dipende solo dal ritardo hh, non dall’istante assoluto tt. Questa è una nozione importante per serie temporali, segnali e rumore.

    Autocorrelazione

    ρ(h)=γ(h)γ(0)\rho(h)=\frac{\gamma(h)}{\gamma(0)}

    L’autocorrelazione misura la dipendenza lineare tra il processo e sé stesso dopo un ritardo hh. Valori elevati indicano memoria temporale; valori vicini a zero indicano scarsa dipendenza lineare a quel ritardo.

    20. Schemi operativi da esame

    Impostare un problema di probabilità

    Ω,A,P(A)\Omega,\quad A,\quad P(A)

    Prima si definisce lo spazio degli esiti, poi l’evento richiesto, infine si sceglie il metodo di calcolo: conteggio, complementare, condizionamento, indipendenza o decomposizione per casi. Saltare la definizione degli eventi porta spesso a usare formule corrette nel contesto sbagliato.

    Riconoscere il modello discreto

    conteggio di successiBin(n,p)\text{conteggio di successi} \Rightarrow \operatorname{Bin}(n,p)

    Se le prove sono indipendenti, identiche e con due esiti, il conteggio è binomiale. Se invece si campiona senza reinserimento da popolazione finita, il modello è ipergeometrico. Se si contano eventi rari in un intervallo, il modello può essere Poisson.

    Riconoscere il modello continuo

    tempo di attesa senza memoriaExp(λ)\text{tempo di attesa senza memoria} \Rightarrow \operatorname{Exp}(\lambda)

    Tempi di attesa con tasso costante suggeriscono l’esponenziale. Errori di misura come somma di molti contributi piccoli suggeriscono la normale. Tempi di vita con tasso non costante suggeriscono spesso Weibull o gamma.

    Calcolare una probabilità continua

    P(aXb)=abfX(x)dxP(a\le X\le b)=\int_a^b f_X(x)\,dx

    Nel continuo non si sommano probabilità puntuali. Si integra la densità sulla regione richiesta. Se la variabile è trasformata, bisogna correggere con il cambio di variabile.

    Risolvere un problema con Bayes

    P(H_j\mid E)= \frac{P(E\mid H_j)P(H_j)} \sum_i P(E\mid H_i)P(H_i)}

    Si individuano ipotesi alternative complete e disgiunte. Si calcolano probabilità iniziali e probabilità dell’evidenza sotto ciascuna ipotesi. Solo alla fine si normalizza con la probabilità totale dell’evidenza.

    Costruire un intervallo di confidenza

    stima±quantileerrore standard\text{stima} \pm \text{quantile}\cdot \text{errore standard}

    Bisogna identificare il parametro, scegliere la distribuzione pivot corretta, stimare l’errore standard e usare il quantile coerente con il livello desiderato. La scelta tra normale, t, chi-quadro o F dipende dal parametro e dalle ipotesi.

    Eseguire un test di ipotesi

    H0,H1,T,p-value,αH_0,\quad H_1,\quad T,\quad p\text{-value},\quad \alpha

    Si dichiarano ipotesi, livello di significatività e statistica test prima di guardare la decisione. Poi si calcola il p-value o si confronta la statistica con la regione critica. La conclusione deve sempre essere espressa nel linguaggio del problema, non solo come “rifiuto” o “non rifiuto”.

    Scegliere tra test indipendente e appaiato

    Di=XiYiD_i=X_i-Y_i

    Se ogni osservazione di un gruppo è naturalmente collegata a una dell’altro, si usa il test appaiato sulle differenze. Se i due campioni sono formati da unità diverse e indipendenti, si usa un test per campioni indipendenti. Confondere i due casi altera errore standard e potenza.

    Interpretare una regressione

    y^=xTβ^\hat y=x^T\hat\beta

    Si controllano segno, unità di misura e incertezza dei coefficienti. Un coefficiente in regressione multipla è un effetto condizionato agli altri predittori. Prima di fidarsi del modello, si guardano residui, outlier, linearità, varianza costante e collinearità.

    Distinguere significatività e rilevanza

    p-value piccoloeffetto grande\text{p-value piccolo} \ne \text{effetto grande}

    Con campioni molto grandi anche effetti minuscoli possono risultare significativi. Con campioni piccoli effetti importanti possono non essere rilevati. Per una decisione ingegneristica servono dimensione dell’effetto, intervallo di confidenza, costo dell’errore e contesto fisico.

    Controllo finale di coerenza statistica

    dati+modello+ipotesi+incertezza+decisione\text{dati}+\text{modello}+\text{ipotesi}+\text{incertezza}+\text{decisione}

    Ogni esercizio o analisi di Probabilità e Statistica va chiuso verificando questi cinque elementi. I dati dicono che cosa è stato osservato; il modello dice come viene rappresentata l’incertezza; le ipotesi dicono quando le formule sono valide; l’incertezza quantifica il margine di errore; la decisione traduce il risultato in linguaggio operativo.

    Ultimo aggiornamento: