Statistica campionaria

Indice dei contenuti

    Una statistica campionaria è una funzione del campione che non dipende da parametri ignoti. Esempi sono la media campionaria, la varianza campionaria, la mediana, un quantile o una statistica test.

    Formalmente, se X_1,\ldots,X_n è un campione, una statistica è:

    T=T(X_1,\ldots,X_n).

    Una statistica può servire come stimatore, come quantità pivotale, come riassunto descrittivo o come base per una regione critica. La sua distribuzione campionaria determina l’incertezza dell’inferenza.

    Definizione formale

    Se X_1,\dots,X_n sono variabili aleatorie osservate in un campionamento statistico, una statistica campionaria è qualunque funzione misurabile dei dati:

    T=T(X_1,\dots,X_n).

    La condizione importante è che T non contenga parametri ignoti. Può dipendere dalla numerosità n e da costanti note, ma non da quantità sconosciute della popolazione.

    Per esempio,

    \bar X= \dfrac{1}{n}\sum_{i=1}^n X_i

    è una statistica. Invece

    \dfrac{\bar X-\mu}{\sigma/\sqrt n}

    non è una statistica se \mu e \sigma sono ignoti, perché contiene parametri non osservati.

    Esempi fondamentali

    La media campionaria sintetizza posizione:

    \bar X= \dfrac{1}{n}\sum_{i=1}^n X_i.

    La varianza campionaria corretta misura dispersione:

    S^2= \dfrac{1}{n-1} \sum_{i=1}^n (X_i-\bar X)^2.

    La mediana, i quantili, il massimo, il minimo, l’asimmetria campionaria e la curtosi sono altre statistiche. Anche la statistica di un test, come quella del test Jarque-Bera, è una statistica campionaria.

    Distribuzione campionaria

    Poiché T è funzione di variabili aleatorie, è a sua volta una variabile aleatoria. La sua legge è detta distribuzione campionaria. Questa distribuzione è il ponte tra dati osservati e inferenza.

    Per esempio, sotto ipotesi opportune,

    E[\bar X]=\mu, \qquad \operatorname{Var}(\bar X)=\dfrac{\sigma^2}{n}.

    La seconda relazione mostra perché aumentare la numerosità campionaria riduce l’incertezza della media. Tuttavia, la formula dipende da indipendenza, identica distribuzione e varianza finita.

    Statistica come stimatore

    Quando una statistica viene usata per approssimare un parametro ignoto, prende il ruolo di stimatore. La media campionaria può stimare la media della popolazione; la varianza campionaria può stimare la varianza; una proporzione campionaria può stimare una probabilità.

    Le proprietà desiderabili includono:

    1. non distorsione;
    2. consistenza;
    3. efficienza;
    4. robustezza;
    5. bassa sensibilità agli outlier, quando il contesto lo richiede.

    Non esiste una statistica migliore in assoluto: una media è efficiente per dati gaussiani ma fragile con code pesanti; una mediana è più robusta ma può perdere efficienza in condizioni ideali.

    Statistiche test e regioni critiche

    Nei test d’ipotesi si costruisce una statistica che, sotto l’ipotesi nulla, ha distribuzione nota o approssimabile. Si osserva poi quanto il valore calcolato sui dati sia estremo rispetto a quella distribuzione.

    Il p-value nasce da questa logica:

    p= P_{H_0} \left( T(X)\ \text{almeno tanto estremo quanto } T(x_{\text{obs}}) \right).

    La qualità del test dipende dalla scelta di T e dalla correttezza della sua distribuzione sotto l’ipotesi nulla.

    Sufficienza e perdita d’informazione

    Una statistica riassume i dati, quindi può conservare o perdere informazione. Una statistica sufficiente conserva tutta l’informazione del campione rilevante per un parametro, all’interno di un modello fissato. Una media campionaria, per esempio, è sufficiente per la media di una normale con varianza nota.

    Fuori da modelli specifici, riassumere troppo può essere pericoloso. Due campioni possono avere stessa media e varianza ma distribuzioni molto diverse. Per questo le statistiche campionarie vanno accompagnate da grafici, diagnostica e conoscenza del processo che ha generato i dati.

    Errori comuni

    Un errore frequente è confondere statistica e parametro. Il parametro appartiene alla popolazione o al modello; la statistica è calcolata sui dati e cambia da campione a campione.

    Un secondo errore è dimenticare la distribuzione campionaria: riportare una media senza incertezza, intervallo o numerosità non basta per inferenza. In applicazioni ingegneristiche, una statistica è utile solo se è chiaro cosa sintetizza, quale variabilità ha e quali ipotesi rendono affidabile la sua interpretazione.

    Ultimo aggiornamento: