Il test di Mann-Whitney, o Wilcoxon rank-sum, confronta due campioni indipendenti ordinando insieme tutte le osservazioni e analizzando i ranghi associati ai gruppi.
Il test rileva differenze stocastiche tra le distribuzioni. Se le due distribuzioni hanno forma simile e differiscono solo per posizione, può essere interpretato come confronto di mediane o shift.
Non è semplicemente un test sulle mediane in ogni situazione: con forme o varianze diverse, un risultato significativo può riflettere differenze più generali nella distribuzione.
Ipotesi e struttura del test
Siano
le osservazioni del primo gruppo e
quelle del secondo. L’ipotesi nulla afferma, nella formulazione più generale, che le due distribuzioni siano uguali:
L’alternativa può essere bilaterale oppure unilaterale, per esempio che i valori di un gruppo tendano a essere maggiori dell’altro.
Il test richiede campioni indipendenti e osservazioni almeno ordinali. Non è adatto a dati appaiati: in quel caso la struttura della dipendenza va rispettata con un test diverso.
Statistica U
Una definizione della statistica di Mann-Whitney è
con eventuale mezzo punto per i pareggi. La statistica conta quante coppie sono ordinate in una direzione. In assenza di differenze tra le distribuzioni, ci si aspetta che X_i sia maggiore di Y_j circa metà delle volte.
Una forma equivalente usa le somme dei ranghi. Se R_X è la somma dei ranghi del primo gruppo dopo aver ordinato insieme tutti i dati, allora
Il test può essere visto come caso a due gruppi della logica dei ranghi usata anche dal test di Kruskal-Wallis.
Interpretazione probabilistica
La quantità
stima la probabilità
Questa interpretazione è spesso più precisa del parlare genericamente di mediane: il test misura una tendenza stocastica di un gruppo ad assumere valori più alti dell’altro.
Se le distribuzioni hanno la stessa forma e differiscono solo per posizione, allora il risultato può essere interpretato come evidenza di uno shift di posizione, spesso descritto come differenza di mediane. Se forme e dispersioni cambiano, questa interpretazione diventa debole.
Distribuzione nulla e p-value
Per campioni piccoli si può calcolare la distribuzione esatta di U sotto l’ipotesi nulla. Per campioni più grandi si usa un’approssimazione normale:
con correzioni in presenza di pareggi. Il p-value si ottiene confrontando la statistica osservata con la distribuzione nulla, esatta o approssimata.
Pareggi e scale discrete
Quando i dati sono discreti o ordinali, i pareggi possono essere frequenti. Ignorarli altera la varianza della statistica e quindi la significatività. I software statistici applicano correzioni per pareggi, ma è buona pratica segnalare quando la scala dei dati produce molte osservazioni uguali.
In scale molto grossolane, il test resta utilizzabile, ma la sua risoluzione inferenziale diminuisce.
Errori comuni
Un errore frequente è chiamarlo sempre “test delle mediane”. Questa descrizione è corretta solo sotto ipotesi aggiuntive sulla forma delle distribuzioni. Un altro errore è usarlo come sostituto automatico del t-test senza guardare indipendenza, pareggi, forma delle distribuzioni e obiettivo dell’analisi.
In applicazioni sperimentali, è utile accompagnare il test con una misura dell’effetto, intervalli o confronto grafico dei ranghi. La significatività da sola non dice quanto la differenza sia rilevante dal punto di vista tecnico.