Una statistica campionaria è una funzione del campione che non dipende da parametri ignoti. Esempi sono la media campionaria, la varianza campionaria, la mediana, un quantile o una statistica test.
Formalmente, se X_1,\ldots,X_n è un campione, una statistica è:
Una statistica può servire come stimatore, come quantità pivotale, come riassunto descrittivo o come base per una regione critica. La sua distribuzione campionaria determina l’incertezza dell’inferenza.
Definizione formale
Se X_1,\dots,X_n sono variabili aleatorie osservate in un campionamento statistico, una statistica campionaria è qualunque funzione misurabile dei dati:
La condizione importante è che T non contenga parametri ignoti. Può dipendere dalla numerosità n e da costanti note, ma non da quantità sconosciute della popolazione.
Per esempio,
è una statistica. Invece
non è una statistica se \mu e \sigma sono ignoti, perché contiene parametri non osservati.
Esempi fondamentali
La media campionaria sintetizza posizione:
La varianza campionaria corretta misura dispersione:
La mediana, i quantili, il massimo, il minimo, l’asimmetria campionaria e la curtosi sono altre statistiche. Anche la statistica di un test, come quella del test Jarque-Bera, è una statistica campionaria.
Distribuzione campionaria
Poiché T è funzione di variabili aleatorie, è a sua volta una variabile aleatoria. La sua legge è detta distribuzione campionaria. Questa distribuzione è il ponte tra dati osservati e inferenza.
Per esempio, sotto ipotesi opportune,
La seconda relazione mostra perché aumentare la numerosità campionaria riduce l’incertezza della media. Tuttavia, la formula dipende da indipendenza, identica distribuzione e varianza finita.
Statistica come stimatore
Quando una statistica viene usata per approssimare un parametro ignoto, prende il ruolo di stimatore. La media campionaria può stimare la media della popolazione; la varianza campionaria può stimare la varianza; una proporzione campionaria può stimare una probabilità.
Le proprietà desiderabili includono:
- non distorsione;
- consistenza;
- efficienza;
- robustezza;
- bassa sensibilità agli outlier, quando il contesto lo richiede.
Non esiste una statistica migliore in assoluto: una media è efficiente per dati gaussiani ma fragile con code pesanti; una mediana è più robusta ma può perdere efficienza in condizioni ideali.
Statistiche test e regioni critiche
Nei test d’ipotesi si costruisce una statistica che, sotto l’ipotesi nulla, ha distribuzione nota o approssimabile. Si osserva poi quanto il valore calcolato sui dati sia estremo rispetto a quella distribuzione.
Il p-value nasce da questa logica:
La qualità del test dipende dalla scelta di T e dalla correttezza della sua distribuzione sotto l’ipotesi nulla.
Sufficienza e perdita d’informazione
Una statistica riassume i dati, quindi può conservare o perdere informazione. Una statistica sufficiente conserva tutta l’informazione del campione rilevante per un parametro, all’interno di un modello fissato. Una media campionaria, per esempio, è sufficiente per la media di una normale con varianza nota.
Fuori da modelli specifici, riassumere troppo può essere pericoloso. Due campioni possono avere stessa media e varianza ma distribuzioni molto diverse. Per questo le statistiche campionarie vanno accompagnate da grafici, diagnostica e conoscenza del processo che ha generato i dati.
Errori comuni
Un errore frequente è confondere statistica e parametro. Il parametro appartiene alla popolazione o al modello; la statistica è calcolata sui dati e cambia da campione a campione.
Un secondo errore è dimenticare la distribuzione campionaria: riportare una media senza incertezza, intervallo o numerosità non basta per inferenza. In applicazioni ingegneristiche, una statistica è utile solo se è chiaro cosa sintetizza, quale variabilità ha e quali ipotesi rendono affidabile la sua interpretazione.