Test di permutazione — ingegnerismo.it

Un test di permutazione costruisce la distribuzione nulla di una statistica rimescolando le etichette dei dati, quando l’ipotesi nulla implica scambiabilità.

Per due gruppi, ad esempio, si ricalcola la differenza tra medie o mediane su molte riallocazioni casuali delle etichette di gruppo. Il p-value è la frazione di permutazioni almeno tanto estreme quanto l’osservata.

Il metodo riduce ipotesi parametriche, ma richiede che la permutazione scelta sia coerente con il disegno sperimentale: indipendenza, blocchi e appaiamenti vanno rispettati.

Principio di scambiabilità

Un test di permutazione è valido quando, sotto l’ipotesi nulla, alcune etichette possono essere scambiate senza cambiare la distribuzione congiunta dei dati. Questa proprietà è detta scambiabilità.

Nel confronto tra due gruppi indipendenti, l’ipotesi nulla può affermare che le osservazioni provengono dalla stessa distribuzione. In tal caso le etichette “gruppo A” e “gruppo B” sono, sotto $H_0$ , arbitrarie: riassegnarle permette di costruire la distribuzione nulla della statistica scelta.

Statistica del test

Si sceglie una statistica campionaria sensibile alla differenza di interesse. Per esempio:

T_{\text{obs}} = \bar X-\bar Y

per una differenza di medie, oppure

T_{\text{obs}} = \operatorname{mediana}(X)-\operatorname{mediana}(Y)

per una differenza di posizione più robusta.

La statistica non deve essere necessariamente parametrica. Si possono usare differenze di medie, ranghi, coefficienti, errori predittivi o qualunque quantità coerente con la domanda scientifica.

p-value permutazionale

Se si enumerano tutte le permutazioni possibili, il p-value bilaterale può essere scritto come

p= \dfrac{ \#\{|T_\pi|\ge |T_{\text{obs}}|\} }{ \#\{\text{permutazioni}\} }.

Quando le permutazioni sono troppe, se ne campiona un numero $B$ casualmente. Una forma pratica, che evita p-value esattamente zero nella stima Monte Carlo, è

p= \dfrac{ 1+\sum_{b=1}^B I(|T_b|\ge |T_{\text{obs}}|) }{ B+1 }.

Il risultato dipende dalla statistica scelta e dal piano di permutazione, non da una distribuzione teorica come normale o chi-quadro.

Disegni appaiati e blocchi

La permutazione deve rispettare il disegno dei dati. Se le osservazioni sono appaiate, non si possono rimescolare liberamente tutte le etichette: si possono per esempio scambiare i segni delle differenze entro coppia. Se ci sono blocchi, le permutazioni vanno fatte dentro i blocchi.

Permutare in modo incoerente può produrre un test formalmente calcolabile ma statisticamente sbagliato, perché viola la struttura di dipendenza del campione.

Vantaggi

I test di permutazione riducono la dipendenza da ipotesi parametriche e sono molto flessibili. Possono essere applicati a statistiche complesse, modelli predittivi, metriche di errore, confronti tra algoritmi o esperimenti con campioni piccoli.

Sono particolarmente utili quando la distribuzione teorica della statistica è ignota o difficile da derivare.

Limiti

La validità non è gratuita: dipende dalla scambiabilità. Se i dati hanno trend temporali, autocorrelazione, cluster, misure ripetute o confondimento strutturale, permutare le etichette può distruggere informazioni essenziali.

Inoltre, con pochi dati, il numero di permutazioni possibili può essere limitato e il p-value assume valori discreti. Con molti dati, l’enumerazione completa può essere computazionalmente impossibile e serve approssimazione Monte Carlo.

Relazione con altri test

Il test di Mann-Whitney e altri test non parametrici possono essere letti come procedure basate su statistiche specifiche e distribuzioni nulle indotte dai ranghi. Il test di permutazione è più generale: permette di scegliere la statistica in base al problema.

Errori comuni

Un errore frequente è pensare che “non parametrico” significhi “senza ipotesi”. In realtà l’ipotesi di scambiabilità è forte e deve essere giustificata. Un altro errore è permutare dopo aver scelto la statistica o il modello guardando i risultati, senza tenere conto della selezione effettuata.

Un test di permutazione ben progettato è potente perché aderisce al disegno sperimentale; uno progettato male dà solo un p-value apparentemente rigoroso.