Teorema di fattorizzazione — ingegnerismo.it

Il teorema di fattorizzazione di Fisher-Neyman fornisce un criterio pratico per riconoscere statistiche sufficienti. È uno dei risultati più usati nella teoria della stima perché permette di capire se un riassunto dei dati conserva tutta l’informazione sul parametro.

Per un modello dominato, con densità o funzione di massa $f_\theta(x)$ , una statistica $T(X)$ è sufficiente per $\theta$ se e solo se si può scrivere:

f_\theta(x)=g_\theta(T(x))h(x).

Tutta la dipendenza dal parametro passa attraverso $T(x)$ ; il fattore $h(x)$ non dipende da $\theta$ . In altre parole, una volta conosciuta la statistica $T(X)$ , il resto del campione non aggiunge informazione sul parametro.

Sufficienza

Una statistica sufficiente è un riassunto informativamente equivalente al campione rispetto al parametro. Non significa che conservi ogni dettaglio dei dati, ma che conserva tutto ciò che serve per l’inferenza su $\theta$ dentro il modello scelto.

Se il campione è $X=(X_1,\ldots,X_n)$ e $T(X)$ ha dimensione molto più bassa, il teorema può giustificare una riduzione drastica. Per esempio, in molti modelli la somma campionaria o la media campionaria sono sufficienti, anche se il campione completo contiene molte osservazioni.

Esempio normale con varianza nota

Supponiamo:

X_1,\ldots,X_n \sim \mathcal N(\mu,\sigma^2),

indipendenti, con $\sigma^2$ nota. La densità congiunta è proporzionale a:

\exp\left\{ -\dfrac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2 \right\}.

Sviluppando il quadrato:

\sum_{i=1}^{n}(x_i-\mu)^2 = \sum_{i=1}^{n}x_i^2 -2\mu\sum_{i=1}^{n}x_i +n\mu^2.

La dipendenza da $\mu$ passa attraverso:

T(X)=\sum_{i=1}^{n}X_i,

mentre il termine $\sum x_i^2$ può entrare nel fattore $h(x)$ perché non dipende dal parametro. Quindi la somma, o equivalentemente la media campionaria, è sufficiente per $\mu$ .

Esempio Bernoulli

Per un campione Bernoulli indipendente con parametro $p$ :

f_p(x)= p^{\sum x_i}(1-p)^{n-\sum x_i}.

La densità dipende da $p$ solo tramite:

T(X)=\sum_{i=1}^{n}X_i,

cioè il numero di successi. L’ordine con cui i successi compaiono nel campione non contiene informazione aggiuntiva su $p$ dentro il modello Bernoulli indipendente.

Modelli dominati e supporto

La forma semplice del teorema richiede attenzione quando il supporto della distribuzione dipende dal parametro. In molti modelli regolari la fattorizzazione è diretta; in modelli con supporto variabile bisogna includere correttamente indicatori e vincoli nel fattore che dipende dal parametro.

Per esempio, in una uniforme su $(0,\theta)$ , il massimo campionario è sufficiente perché il vincolo $x_i\le \theta$ per tutti gli $i$ equivale a $\max_i x_i\le \theta$ . Ignorare il supporto porterebbe a una fattorizzazione sbagliata.

Sufficienza minima

Il teorema di fattorizzazione identifica statistiche sufficienti, ma non garantisce automaticamente che siano minime. Una statistica sufficiente minima è, in un senso tecnico, il riassunto più compresso che resta sufficiente. In molti modelli la statistica suggerita dalla fattorizzazione è anche minima, ma questo richiede un criterio aggiuntivo.

Nella pratica, trovare una statistica sufficiente è già utile: consente di costruire stimatori, intervalli e test usando un riassunto motivato teoricamente.

Collegamento con Rao-Blackwell e Lehmann-Scheffé

La sufficienza è centrale nel teorema di Rao-Blackwell: condizionare uno stimatore rispetto a una statistica sufficiente può ridurre la varianza senza introdurre distorsione. Se la statistica è anche completa, il teorema di Lehmann-Scheffé fornisce l’unicità dello stimatore non distorto a varianza minima.

Il teorema di fattorizzazione è quindi spesso il primo passo: trova la statistica sufficiente; poi altri risultati stabiliscono come usarla per ottenere stimatori migliori.

Interpretazione ingegneristica

In un problema di stima, il teorema dice quali dati possono essere compressi senza perdere informazione sul parametro. Se si stimano tassi di guasto, probabilità di difetto, medie di processo o parametri di conteggio, può bastare conservare somme, conteggi o massimi invece dell’intera sequenza di misure, purché il modello sia corretto.

Questa compressione è utile in sistemi di misura, monitoraggio e data logging: ridurre dati senza perdere informazione inferenziale sul parametro può semplificare calcolo, archiviazione e comunicazione.

Errori comuni

Il primo errore è applicare il teorema manipolando solo una parte della densità e dimenticando termini di supporto. Il secondo è pensare che una statistica sufficiente sia sufficiente per qualunque domanda: lo è rispetto a un parametro e a un modello specifico. Se cambia il modello, può cambiare anche la statistica sufficiente.

Il terzo errore è confondere sufficienza con bontà predittiva. Una statistica sufficiente conserva informazione su $\theta$ nel modello, ma non garantisce che il modello descriva bene il fenomeno reale. La fattorizzazione è un criterio matematico interno al modello statistico.