Statistica campionaria — ingegnerismo.it

Una statistica campionaria è una funzione del campione che non dipende da parametri ignoti. Esempi sono la media campionaria, la varianza campionaria, la mediana, un quantile o una statistica test.

Formalmente, se $X_1,\ldots,X_n$ è un campione, una statistica è:

T=T(X_1,\ldots,X_n).

Una statistica può servire come stimatore, come quantità pivotale, come riassunto descrittivo o come base per una regione critica. La sua distribuzione campionaria determina l’incertezza dell’inferenza.

Definizione formale

Se $X_1,\dots,X_n$ sono variabili aleatorie osservate in un campionamento statistico, una statistica campionaria è qualunque funzione misurabile dei dati:

T=T(X_1,\dots,X_n).

La condizione importante è che $T$ non contenga parametri ignoti. Può dipendere dalla numerosità $n$ e da costanti note, ma non da quantità sconosciute della popolazione.

Per esempio,

\bar X= \dfrac{1}{n}\sum_{i=1}^n X_i

è una statistica. Invece

\dfrac{\bar X-\mu}{\sigma/\sqrt n}

non è una statistica se $\mu$ e $\sigma$ sono ignoti, perché contiene parametri non osservati.

Esempi fondamentali

La media campionaria sintetizza posizione:

\bar X= \dfrac{1}{n}\sum_{i=1}^n X_i.

La varianza campionaria corretta misura dispersione:

S^2= \dfrac{1}{n-1} \sum_{i=1}^n (X_i-\bar X)^2.

La mediana, i quantili, il massimo, il minimo, l’asimmetria campionaria e la curtosi sono altre statistiche. Anche la statistica di un test, come quella del test Jarque-Bera, è una statistica campionaria.

Distribuzione campionaria

Poiché $T$ è funzione di variabili aleatorie, è a sua volta una variabile aleatoria. La sua legge è detta distribuzione campionaria. Questa distribuzione è il ponte tra dati osservati e inferenza.

Per esempio, sotto ipotesi opportune,

E[\bar X]=\mu, \qquad \operatorname{Var}(\bar X)=\dfrac{\sigma^2}{n}.

La seconda relazione mostra perché aumentare la numerosità campionaria riduce l’incertezza della media. Tuttavia, la formula dipende da indipendenza, identica distribuzione e varianza finita.

Statistica come stimatore

Quando una statistica viene usata per approssimare un parametro ignoto, prende il ruolo di stimatore. La media campionaria può stimare la media della popolazione; la varianza campionaria può stimare la varianza; una proporzione campionaria può stimare una probabilità.

Le proprietà desiderabili includono:

non distorsione;
consistenza;
efficienza;
robustezza;
bassa sensibilità agli outlier, quando il contesto lo richiede.

Non esiste una statistica migliore in assoluto: una media è efficiente per dati gaussiani ma fragile con code pesanti; una mediana è più robusta ma può perdere efficienza in condizioni ideali.

Statistiche test e regioni critiche

Nei test d’ipotesi si costruisce una statistica che, sotto l’ipotesi nulla, ha distribuzione nota o approssimabile. Si osserva poi quanto il valore calcolato sui dati sia estremo rispetto a quella distribuzione.

Il p-value nasce da questa logica:

p= P_{H_0} \left( T(X)\ \text{almeno tanto estremo quanto } T(x_{\text{obs}}) \right).

La qualità del test dipende dalla scelta di $T$ e dalla correttezza della sua distribuzione sotto l’ipotesi nulla.

Sufficienza e perdita d’informazione

Una statistica riassume i dati, quindi può conservare o perdere informazione. Una statistica sufficiente conserva tutta l’informazione del campione rilevante per un parametro, all’interno di un modello fissato. Una media campionaria, per esempio, è sufficiente per la media di una normale con varianza nota.

Fuori da modelli specifici, riassumere troppo può essere pericoloso. Due campioni possono avere stessa media e varianza ma distribuzioni molto diverse. Per questo le statistiche campionarie vanno accompagnate da grafici, diagnostica e conoscenza del processo che ha generato i dati.

Errori comuni

Un errore frequente è confondere statistica e parametro. Il parametro appartiene alla popolazione o al modello; la statistica è calcolata sui dati e cambia da campione a campione.

Un secondo errore è dimenticare la distribuzione campionaria: riportare una media senza incertezza, intervallo o numerosità non basta per inferenza. In applicazioni ingegneristiche, una statistica è utile solo se è chiaro cosa sintetizza, quale variabilità ha e quali ipotesi rendono affidabile la sua interpretazione.