Una statistica sufficiente per un parametro \theta conserva tutta l’informazione del campione rilevante per inferire \theta. Condizionatamente al valore della statistica, la distribuzione residua dei dati non dipende più da \theta.
Il criterio operativo più usato è il teorema di fattorizzazione di Fisher-Neyman: T(X) è sufficiente se la densità può essere scritta come:
La sufficienza permette compressione informativa: invece di usare tutti i dati grezzi, per il parametro basta la statistica sufficiente, almeno all’interno del modello statistico assunto.
Interpretazione
Dire che T(X) è sufficiente non significa che contenga tutta l’informazione possibile sui dati, ma tutta l’informazione rilevante per \theta nel modello scelto. Una volta noto T(X), il resto del campione può ancora descrivere ordine, forma o dettagli osservativi, ma non cambia l’inferenza sul parametro.
Per esempio, se X_1,\ldots,X_n sono Bernoulli indipendenti con parametro p, la somma:
è sufficiente per p: per stimare la probabilità di successo conta il numero totale di successi, non l’ordine in cui si sono verificati.
Famiglie esponenziali
Nelle famiglie esponenziali, la somma delle statistiche naturali del campione è sufficiente per il parametro naturale. Questa proprietà spiega perché distribuzioni come Bernoulli, Poisson, esponenziale e normale con varianza nota producono stimatori statistici e test con forme particolarmente regolari.
Una forma tipica è:
In questo caso T(x) è il riassunto informativo che entra nella parte dipendente dal parametro.
Sufficienza e perdita di informazione
La sufficienza è una proprietà relativa al modello. Se il modello è sbagliato, una statistica sufficiente per quel modello può non conservare informazioni utili per diagnosticare deviazioni, outlier, dipendenze o cambiamenti di distribuzione.
Un errore comune è credere che “sufficiente” significhi “migliore” o “unica”. Possono esistere statistiche sufficienti non minime, che contengono informazione ridondante. L’obiettivo teorico spesso è trovare una statistica sufficiente minima, cioè il riassunto più compatto che conserva l’informazione sul parametro.
Vedi anche: Verosimiglianza, Informazione di Fisher.