Test di Mann-Whitney — ingegnerismo.it

Il test di Mann-Whitney, o Wilcoxon rank-sum, confronta due campioni indipendenti ordinando insieme tutte le osservazioni e analizzando i ranghi associati ai gruppi.

Il test rileva differenze stocastiche tra le distribuzioni. Se le due distribuzioni hanno forma simile e differiscono solo per posizione, può essere interpretato come confronto di mediane o shift.

Non è semplicemente un test sulle mediane in ogni situazione: con forme o varianze diverse, un risultato significativo può riflettere differenze più generali nella distribuzione.

Ipotesi e struttura del test

Siano

X_1,\dots,X_m

le osservazioni del primo gruppo e

Y_1,\dots,Y_n

quelle del secondo. L’ipotesi nulla afferma, nella formulazione più generale, che le due distribuzioni siano uguali:

F_X=F_Y.

L’alternativa può essere bilaterale oppure unilaterale, per esempio che i valori di un gruppo tendano a essere maggiori dell’altro.

Il test richiede campioni indipendenti e osservazioni almeno ordinali. Non è adatto a dati appaiati: in quel caso la struttura della dipendenza va rispettata con un test diverso.

Statistica U

Una definizione della statistica di Mann-Whitney è

U= \sum_{i=1}^m \sum_{j=1}^n I(X_i>Y_j),

con eventuale mezzo punto per i pareggi. La statistica conta quante coppie sono ordinate in una direzione. In assenza di differenze tra le distribuzioni, ci si aspetta che $X_i$ sia maggiore di $Y_j$ circa metà delle volte.

Una forma equivalente usa le somme dei ranghi. Se $R_X$ è la somma dei ranghi del primo gruppo dopo aver ordinato insieme tutti i dati, allora

U_X= R_X-\dfrac{m(m+1)}{2}.

Il test può essere visto come caso a due gruppi della logica dei ranghi usata anche dal test di Kruskal-Wallis.

Interpretazione probabilistica

La quantità

\dfrac{U}{mn}

stima la probabilità

P(X>Y)+\dfrac{1}{2}P(X=Y).

Questa interpretazione è spesso più precisa del parlare genericamente di mediane: il test misura una tendenza stocastica di un gruppo ad assumere valori più alti dell’altro.

Se le distribuzioni hanno la stessa forma e differiscono solo per posizione, allora il risultato può essere interpretato come evidenza di uno shift di posizione, spesso descritto come differenza di mediane. Se forme e dispersioni cambiano, questa interpretazione diventa debole.

Distribuzione nulla e p-value

Per campioni piccoli si può calcolare la distribuzione esatta di $U$ sotto l’ipotesi nulla. Per campioni più grandi si usa un’approssimazione normale:

E[U]=\dfrac{mn}{2}, \qquad \operatorname{Var}(U)= \dfrac{mn(m+n+1)}{12},

con correzioni in presenza di pareggi. Il p-value si ottiene confrontando la statistica osservata con la distribuzione nulla, esatta o approssimata.

Pareggi e scale discrete

Quando i dati sono discreti o ordinali, i pareggi possono essere frequenti. Ignorarli altera la varianza della statistica e quindi la significatività. I software statistici applicano correzioni per pareggi, ma è buona pratica segnalare quando la scala dei dati produce molte osservazioni uguali.

In scale molto grossolane, il test resta utilizzabile, ma la sua risoluzione inferenziale diminuisce.

Errori comuni

Un errore frequente è chiamarlo sempre “test delle mediane”. Questa descrizione è corretta solo sotto ipotesi aggiuntive sulla forma delle distribuzioni. Un altro errore è usarlo come sostituto automatico del t-test senza guardare indipendenza, pareggi, forma delle distribuzioni e obiettivo dell’analisi.

In applicazioni sperimentali, è utile accompagnare il test con una misura dell’effetto, intervalli o confronto grafico dei ranghi. La significatività da sola non dice quanto la differenza sia rilevante dal punto di vista tecnico.