La statistica descrittiva riassume un insieme di dati con poche grandezze: indici di posizione (media, mediana, moda) e di dispersione (varianza, deviazione standard, range). È il primo passo prima di ogni inferenza: capire com’è fatto il campione. Questa scheda allena il calcolo manuale di questi indici.
1. Media campionaria
Esercizio. Dati: 4,\ 8,\ 6,\ 10,\ 7. Calcolare la media.
\bar x=\dfrac{1}{n}\sum_i x_i=\dfrac{4+8+6+10+7}{5}=\dfrac{35}{5}=7.
La media è il baricentro dei dati. È sensibile ai valori estremi: un singolo dato anomalo la sposta.
2. Mediana
Esercizio. Per gli stessi dati, calcolare la mediana.
Passo 1 — ordinare: 4,\ 6,\ 7,\ 8,\ 10.
Passo 2 — valore centrale (n=5 dispari, posizione (n+1)/2=3):
\tilde x=7.
La mediana divide i dati in due metà uguali. A differenza della media è robusta: insensibile agli estremi. Con n pari si media i due valori centrali.
3. Moda
Esercizio. Dati: 3,\ 5,\ 5,\ 7,\ 8,\ 5,\ 9. Trovare la moda.
La moda è il valore più frequente:
\text{moda}=5\quad(\text{compare 3 volte}).
La moda è l’unico indice di posizione utilizzabile anche su dati qualitativi. Una distribuzione può essere plurimodale.
4. Varianza campionaria
Esercizio. Per i dati 4,\ 8,\ 6,\ 10,\ 7 (media 7), calcolare la varianza campionaria.
La varianza campionaria divide per n-1 (correzione di Bessel):
s^2=\dfrac{1}{n-1}\sum_i (x_i-\bar x)^2.
Scarti al quadrato: (4-7)^2+(8-7)^2+(6-7)^2+(10-7)^2+(7-7)^2=9+1+1+9+0=20:
s^2=\dfrac{20}{5-1}=\dfrac{20}{4}=5{,}0.
Si divide per n-1 (non n) perché la media è stimata dai dati stessi: si “consuma” un grado di libertà.
5. Deviazione standard e coefficiente di variazione
Esercizio. Per gli stessi dati, calcolare deviazione standard e coefficiente di variazione.
Deviazione standard:
s=\sqrt{s^2}=\sqrt{5{,}0}=2{,}24.
Coefficiente di variazione (dispersione relativa):
CV=\dfrac{s}{\bar x}=\dfrac{2{,}24}{7}=0{,}32=32\%.
Il CV è adimensionale: permette di confrontare la variabilità di grandezze con unità o ordini di grandezza diversi.
6. Quartili e scarto interquartile
Esercizio. Dati ordinati: 2,\ 4,\ 5,\ 7,\ 8,\ 10,\ 12,\ 15. Calcolare Q_1, Q_3 e lo scarto interquartile.
Passo 1 — mediana (n=8, media dei centrali 7 e 8): Q_2=7{,}5.
Passo 2 — quartili (mediane delle due metà):
- metà inferiore 2,4,5,7 → Q_1=(4+5)/2=4{,}5;
- metà superiore 8,10,12,15 → Q_3=(10+12)/2=11.
Passo 3 — scarto interquartile:
IQR=Q_3-Q_1=11-4{,}5=6{,}5.
L’IQR contiene il 50\% centrale dei dati ed è robusto agli outlier, base del box-plot.
7. Individuazione degli outlier
Esercizio. Con Q_1=4{,}5, Q_3=11, IQR=6{,}5, stabilire se il valore 25 è un outlier (regola di Tukey).
La regola di Tukey marca come outlier i valori oltre Q_3+1{,}5\,IQR o sotto Q_1-1{,}5\,IQR:
Q_3+1{,}5\,IQR=11+1{,}5\times6{,}5=11+9{,}75=20{,}75.
Poiché 25>20{,}75, il valore 25 è un outlier. La soglia di 1{,}5\,IQR è il criterio standard del box-plot per segnalare valori anomali.
8. Media pesata
Esercizio. Un voto finale è composto da laboratorio (30\%), scritto (50\%) e orale (20\%). Con punteggi 28, 24, 30, calcolare la media pesata.
La media pesata è
con pesi che sommano a 1. Quindi:
La media aritmetica semplice sarebbe (28+24+30)/3=27{,}33, ma sarebbe sbagliata perché le tre prove non pesano allo stesso modo.
9. Dati raggruppati in frequenze
Esercizio. Una rilevazione dà i valori 1,2,3,4 con frequenze 2,5,2,1. Calcolare media e varianza campionaria.
La numerosità totale è
La media è
Per la varianza campionaria calcoliamo la somma degli scarti quadratici pesata:
Numericamente:
Quindi
Le frequenze permettono di non riscrivere tutti i dati grezzi, ma ogni contributo va moltiplicato per la frequenza.
10. Standardizzazione e z-score
Esercizio. In un campione con media 50 e deviazione standard 8, calcolare lo z-score del valore 66 e interpretarlo.
Lo z-score è
Quindi
Il valore 66 si trova due deviazioni standard sopra la media. Gli z-score rendono confrontabili dati espressi su scale diverse: un valore con z=2 è alto rispetto al proprio gruppo, indipendentemente dall’unità di misura.
11. Effetto di un outlier su media e mediana
Esercizio. Confrontare media e mediana dei dati 10,\ 11,\ 12,\ 13,\ 100.
I dati sono già ordinati. La mediana è il valore centrale:
La media è
L’outlier 100 sposta molto la media, ma lascia la mediana al centro del blocco principale. Per distribuzioni asimmetriche o con valori anomali conviene sempre riportare anche mediana e IQR, non solo media e deviazione standard.
Errori comuni
- Dividere la varianza campionaria per n. Per la varianza campionaria si divide per n-1; dividere per n dà lo stimatore distorto (varianza di popolazione).
- Confondere media e mediana su dati asimmetrici. Con outlier o code lunghe differiscono molto: la mediana è più rappresentativa.
- Dimenticare di ordinare prima di mediana e quartili. Mediana, quartili e IQR richiedono dati ordinati: calcolarli sulla sequenza grezza è errore frequente.
- Confrontare deviazioni standard di grandezze diverse. Per confronti tra scale diverse serve il CV (adimensionale), non s in unità assolute.
- Ignorare i pesi o le frequenze. Media e varianza su dati pesati/raggruppati richiedono di moltiplicare ogni valore per il suo peso o frequenza.
- Usare solo la media in presenza di outlier. Una sintesi robusta richiede anche mediana, quartili e IQR.