Statistica completa — ingegnerismo.it

Una statistica completa è una statistica $T$ tale che nessuna funzione non banale di $T$ abbia valore atteso nullo per tutti i valori del parametro. Formalmente, se:

\mathbb E_\theta[g(T)]=0 \quad \text{per ogni } \theta,

allora deve valere:

g(T)=0 \quad \text{quasi certamente}.

La completezza è una proprietà tecnica ma molto potente: impedisce l’esistenza di funzioni non nulle della statistica che siano “invisibili in media” per tutto il modello parametrico.

Intuizione

Una statistica completa contiene abbastanza variazione, rispetto al parametro, da rendere riconoscibili le sue funzioni attraverso il valore atteso. Se una funzione di $T$ ha media zero qualunque sia il parametro, allora quella funzione non può contenere una struttura reale: deve essere nulla quasi certamente.

La completezza non significa che $T$ contenga tutti i dati, né coincide con la sufficienza. La sufficienza riguarda la conservazione dell’informazione sul parametro; la completezza riguarda l’unicità delle funzioni di una statistica rispetto ai valori attesi.

Collegamento con la sufficienza

In combinazione con la sufficienza, permette risultati di ottimalità come il teorema di Lehmann-Scheffé. In particolare, uno stimatore non distorto che sia funzione di una statistica sufficiente e completa è l’unico stimatore non distorto a varianza minima.

Più precisamente, se $T$ è sufficiente e completa per $\theta$ , e se $\delta(T)$ è uno stimatore non distorto di una quantità $\psi(\theta)$ , allora $\delta(T)$ è l’UMVU, cioè lo stimatore non distorto a varianza uniformemente minima. Inoltre è unico quasi certamente.

La completezza elimina l’ambiguità: se due stimatori non distorti sono entrambi funzioni di $T$ , la loro differenza ha valore atteso nullo per ogni $\theta$ ; per completezza, la differenza deve essere nulla quasi certamente.

Esempio binomiale

Se:

X\sim \operatorname{Bin}(n,p),

con $n$ noto e $p\in(0,1)$ , la statistica $T=X$ è completa per il modello binomiale. Se una funzione $g$ soddisfa:

\mathbb E_p[g(X)] = \sum_{x=0}^{n}g(x)\binom{n}{x}p^x(1-p)^{n-x} =0

per ogni $p\in(0,1)$ , allora i coefficienti devono annullarsi e quindi $g(x)=0$ per tutti i valori possibili di $x$ . L’argomento si basa sul fatto che un polinomio nullo per ogni valore dell’intervallo ha coefficienti nulli.

Famiglie esponenziali

Molti esempi importanti provengono dalle famiglie esponenziali a un parametro. Per campioni indipendenti da modelli come Poisson, esponenziale, normale con varianza nota o gamma con alcuni parametri fissati, statistiche come somme campionarie possono essere sufficienti e complete sotto opportune condizioni sullo spazio parametrico.

Per esempio, se $X_1,\ldots,X_n$ sono Poisson indipendenti con parametro $\lambda$ , allora:

T=\sum_{i=1}^{n}X_i

ha distribuzione Poisson con parametro $n\lambda$ ed è una statistica sufficiente e completa per $\lambda$ . Questo rende possibile costruire stimatori UMVU come funzioni della somma.

Completezza limitata

Esistono varianti della nozione, come completezza limitata, in cui la proprietà è richiesta solo per funzioni limitate. La distinzione è tecnica ma importante in modelli in cui non tutte le funzioni integrabili sono gestibili. Nei corsi di inferenza classica, però, la completezza ordinaria è quella usata più spesso nei teoremi di ottimalità.

La completezza dipende dal modello parametrico, non solo dalla statistica come oggetto algebrico. La stessa forma di statistica può essere completa in un modello e non completa in un altro, perché cambiano le distribuzioni ammesse e lo spazio dei parametri.

Interpretazione operativa

In applicazioni ingegneristiche la completezza non è una proprietà che si verifica di routine come un residuo o un p-value. È piuttosto uno strumento teorico che giustifica perché certi stimatori costruiti da statistiche sufficienti siano ottimali. Compare quando si vogliono stimatori efficienti di parametri di affidabilità, tassi di guasto, probabilità di difetto, medie di processo o grandezze derivate.

La sua utilità principale è garantire unicità e optimalità in classi di stimatori non distorti. In un progetto applicato, questo può tradursi nella scelta di uno stimatore con fondamento teorico chiaro invece di una formula empirica equivalente solo approssimativamente.

Errori comuni

Il primo errore è confondere completezza con indipendenza o con assenza di ridondanza nei dati. La completezza riguarda funzioni con valore atteso nullo per tutti i parametri. Il secondo è pensare che una statistica sufficiente sia automaticamente completa: non è vero. Servono condizioni aggiuntive sul modello.

Il terzo errore è applicare il teorema di Lehmann-Scheffé senza verificare non distorsione, sufficienza e completezza. Se una delle tre proprietà manca, la conclusione sull’UMVU non segue. La statistica completa è quindi una chiave teorica forte, ma va usata con precisione.