Statistica descrittiva: esercizi svolti

Indice dei contenuti

    La statistica descrittiva riassume un insieme di dati con poche grandezze: indici di posizione (media, mediana, moda) e di dispersione (varianza, deviazione standard, range). È il primo passo prima di ogni inferenza: capire com’è fatto il campione. Questa scheda allena il calcolo manuale di questi indici.

    1. Media campionaria

    Esercizio. Dati: 4,\ 8,\ 6,\ 10,\ 7. Calcolare la media.

    \bar x=\dfrac{1}{n}\sum_i x_i=\dfrac{4+8+6+10+7}{5}=\dfrac{35}{5}=7.

    La media è il baricentro dei dati. È sensibile ai valori estremi: un singolo dato anomalo la sposta.

    2. Mediana

    Esercizio. Per gli stessi dati, calcolare la mediana.

    Passo 1 — ordinare: 4,\ 6,\ 7,\ 8,\ 10.

    Passo 2 — valore centrale (n=5 dispari, posizione (n+1)/2=3):

    \tilde x=7.

    La mediana divide i dati in due metà uguali. A differenza della media è robusta: insensibile agli estremi. Con n pari si media i due valori centrali.

    3. Moda

    Esercizio. Dati: 3,\ 5,\ 5,\ 7,\ 8,\ 5,\ 9. Trovare la moda.

    La moda è il valore più frequente:

    \text{moda}=5\quad(\text{compare 3 volte}).

    La moda è l’unico indice di posizione utilizzabile anche su dati qualitativi. Una distribuzione può essere plurimodale.

    4. Varianza campionaria

    Esercizio. Per i dati 4,\ 8,\ 6,\ 10,\ 7 (media 7), calcolare la varianza campionaria.

    La varianza campionaria divide per n-1 (correzione di Bessel):

    s^2=\dfrac{1}{n-1}\sum_i (x_i-\bar x)^2.

    Scarti al quadrato: (4-7)^2+(8-7)^2+(6-7)^2+(10-7)^2+(7-7)^2=9+1+1+9+0=20:

    s^2=\dfrac{20}{5-1}=\dfrac{20}{4}=5{,}0.

    Si divide per n-1 (non n) perché la media è stimata dai dati stessi: si “consuma” un grado di libertà.

    5. Deviazione standard e coefficiente di variazione

    Esercizio. Per gli stessi dati, calcolare deviazione standard e coefficiente di variazione.

    Deviazione standard:

    s=\sqrt{s^2}=\sqrt{5{,}0}=2{,}24.

    Coefficiente di variazione (dispersione relativa):

    CV=\dfrac{s}{\bar x}=\dfrac{2{,}24}{7}=0{,}32=32\%.

    Il CV è adimensionale: permette di confrontare la variabilità di grandezze con unità o ordini di grandezza diversi.

    6. Quartili e scarto interquartile

    Esercizio. Dati ordinati: 2,\ 4,\ 5,\ 7,\ 8,\ 10,\ 12,\ 15. Calcolare Q_1, Q_3 e lo scarto interquartile.

    Passo 1 — mediana (n=8, media dei centrali 7 e 8): Q_2=7{,}5.

    Passo 2 — quartili (mediane delle due metà):

    • metà inferiore 2,4,5,7Q_1=(4+5)/2=4{,}5;
    • metà superiore 8,10,12,15Q_3=(10+12)/2=11.

    Passo 3 — scarto interquartile:

    IQR=Q_3-Q_1=11-4{,}5=6{,}5.

    L’IQR contiene il 50\% centrale dei dati ed è robusto agli outlier, base del box-plot.

    7. Individuazione degli outlier

    Esercizio. Con Q_1=4{,}5, Q_3=11, IQR=6{,}5, stabilire se il valore 25 è un outlier (regola di Tukey).

    La regola di Tukey marca come outlier i valori oltre Q_3+1{,}5\,IQR o sotto Q_1-1{,}5\,IQR:

    Q_3+1{,}5\,IQR=11+1{,}5\times6{,}5=11+9{,}75=20{,}75.

    Poiché 25>20{,}75, il valore 25 è un outlier. La soglia di 1{,}5\,IQR è il criterio standard del box-plot per segnalare valori anomali.

    8. Media pesata

    Esercizio. Un voto finale è composto da laboratorio (30\%), scritto (50\%) e orale (20\%). Con punteggi 28, 24, 30, calcolare la media pesata.

    La media pesata è

    \bar x_w=\sum_i w_i x_i,

    con pesi che sommano a 1. Quindi:

    \bar x_w=0{,}30\cdot28+0{,}50\cdot24+0{,}20\cdot30 =8{,}4+12+6=26{,}4.

    La media aritmetica semplice sarebbe (28+24+30)/3=27{,}33, ma sarebbe sbagliata perché le tre prove non pesano allo stesso modo.

    9. Dati raggruppati in frequenze

    Esercizio. Una rilevazione dà i valori 1,2,3,4 con frequenze 2,5,2,1. Calcolare media e varianza campionaria.

    La numerosità totale è

    n=2+5+2+1=10.

    La media è

    \bar x=\dfrac{1\cdot2+2\cdot5+3\cdot2+4\cdot1}{10} =\dfrac{2+10+6+4}{10} =2{,}2.

    Per la varianza campionaria calcoliamo la somma degli scarti quadratici pesata:

    \sum f_i(x_i-\bar x)^2 =2(1-2{,}2)^2+5(2-2{,}2)^2+2(3-2{,}2)^2+1(4-2{,}2)^2.

    Numericamente:

    2(1{,}44)+5(0{,}04)+2(0{,}64)+1(3{,}24) =2{,}88+0{,}20+1{,}28+3{,}24=7{,}60.

    Quindi

    s^2=\dfrac{7{,}60}{n-1}=\dfrac{7{,}60}{9}=0{,}844.

    Le frequenze permettono di non riscrivere tutti i dati grezzi, ma ogni contributo va moltiplicato per la frequenza.

    10. Standardizzazione e z-score

    Esercizio. In un campione con media 50 e deviazione standard 8, calcolare lo z-score del valore 66 e interpretarlo.

    Lo z-score è

    z=\dfrac{x-\bar x}{s}.

    Quindi

    z=\dfrac{66-50}{8}=2.

    Il valore 66 si trova due deviazioni standard sopra la media. Gli z-score rendono confrontabili dati espressi su scale diverse: un valore con z=2 è alto rispetto al proprio gruppo, indipendentemente dall’unità di misura.

    11. Effetto di un outlier su media e mediana

    Esercizio. Confrontare media e mediana dei dati 10,\ 11,\ 12,\ 13,\ 100.

    I dati sono già ordinati. La mediana è il valore centrale:

    \tilde x=12.

    La media è

    \bar x=\dfrac{10+11+12+13+100}{5} =\dfrac{146}{5}=29{,}2.

    L’outlier 100 sposta molto la media, ma lascia la mediana al centro del blocco principale. Per distribuzioni asimmetriche o con valori anomali conviene sempre riportare anche mediana e IQR, non solo media e deviazione standard.

    Errori comuni

    • Dividere la varianza campionaria per n. Per la varianza campionaria si divide per n-1; dividere per n dà lo stimatore distorto (varianza di popolazione).
    • Confondere media e mediana su dati asimmetrici. Con outlier o code lunghe differiscono molto: la mediana è più rappresentativa.
    • Dimenticare di ordinare prima di mediana e quartili. Mediana, quartili e IQR richiedono dati ordinati: calcolarli sulla sequenza grezza è errore frequente.
    • Confrontare deviazioni standard di grandezze diverse. Per confronti tra scale diverse serve il CV (adimensionale), non s in unità assolute.
    • Ignorare i pesi o le frequenze. Media e varianza su dati pesati/raggruppati richiedono di moltiplicare ogni valore per il suo peso o frequenza.
    • Usare solo la media in presenza di outlier. Una sintesi robusta richiede anche mediana, quartili e IQR.

    Ultimo aggiornamento: