Il test di Kruskal-Wallis è un test non parametrico basato sui ranghi usato per confrontare tre o più gruppi indipendenti. È spesso presentato come alternativa alla ANOVA a una via quando l’ipotesi di normalità dei residui è debole, quando la scala di misura è almeno ordinale o quando la presenza di valori estremi rende poco robusto il confronto sulle medie.
L’idea è sostituire i valori osservati con i loro ranghi nell’insieme complessivo dei dati. Se i gruppi provengono dalla stessa distribuzione, le somme dei ranghi dovrebbero essere compatibili con una ripartizione casuale; se un gruppo tende ad avere valori sistematicamente più alti o più bassi, i suoi ranghi medi si spostano.
Ipotesi nulla e significato del test
Con k gruppi indipendenti, l’ipotesi nulla afferma che le distribuzioni dei gruppi sono uguali:
L’ipotesi alternativa è che almeno una distribuzione differisca dalle altre. Se le distribuzioni hanno forma simile e differiscono soprattutto per uno spostamento di posizione, il test viene letto operativamente come confronto tra mediane o posizioni centrali. Se invece forme, dispersioni o asimmetrie sono diverse, un rifiuto di H_0 segnala una differenza distributiva più generale, non necessariamente una sola differenza di mediana.
Questa distinzione è importante: Kruskal-Wallis non è semplicemente una ANOVA “senza normalità”. È un test sui ranghi, quindi perde informazione sulle distanze numeriche ma guadagna robustezza rispetto a scale ordinali e outlier.
Statistica di Kruskal-Wallis
Siano n_i le numerosità dei gruppi, N=\sum_{i=1}^k n_i la numerosità totale e R_i la somma dei ranghi assegnati alle osservazioni del gruppo i. In assenza di pareggi, la statistica è
Sotto l’ipotesi nulla e per campioni non troppo piccoli, H è approssimativamente distribuita come una distribuzione chi-quadro con k-1 gradi di libertà:
Il p-value è quindi calcolato come probabilità di osservare un valore almeno così grande della statistica sotto H_0. Valori elevati di H indicano che le somme dei ranghi sono troppo sbilanciate per essere attribuite al solo caso.
Correzione per pareggi
Nelle applicazioni reali sono frequenti osservazioni uguali, soprattutto con scale discrete o punteggi ordinali. In presenza di pareggi si assegna a ciascun valore ripetuto il rango medio e si applica una correzione:
dove t_j è la dimensione del blocco di pareggi j. Se i pareggi sono pochi, la correzione incide poco; se sono molti, ignorarla può rendere il test troppo ottimistico o alterarne il livello.
Procedura operativa
La procedura pratica è lineare:
- unire tutte le osservazioni;
- ordinarle e assegnare i ranghi;
- sommare i ranghi entro ciascun gruppo;
- calcolare H;
- confrontare H con la legge \chi^2_{k-1} o usare un p-value esatto/permutazionale per campioni piccoli.
Quando il test rifiuta l’ipotesi nulla, non dice automaticamente quali gruppi differiscono. Servono confronti post-hoc sui ranghi, con correzione per confronti multipli. Senza questa fase, concludere “tutti i gruppi sono diversi” è un errore: il test globale afferma solo che almeno una differenza esiste.
Condizioni d’uso
Il test richiede gruppi indipendenti, osservazioni indipendenti all’interno dei gruppi e una variabile almeno ordinale. Non è adatto a misure appaiate o ripetute sugli stessi soggetti: in quel caso serve una procedura diversa, perché l’indipendenza tra gruppi è violata.
Rispetto al test F dell’ANOVA, Kruskal-Wallis è meno sensibile alle ipotesi parametriche, ma non elimina la necessità di guardare i dati. Grafici a scatola, ranghi medi, numerosità e dispersioni restano essenziali per interpretare correttamente il risultato.
Errori comuni
Un errore frequente è presentare il test come confronto automatico delle mediane. Questa lettura è difendibile solo quando le distribuzioni dei gruppi hanno forma confrontabile. Un altro errore è usare Kruskal-Wallis per evitare ogni diagnostica: se i gruppi hanno dispersioni molto diverse, il test può rifiutare per differenze di forma più che per differenze di posizione.
In ingegneria e sperimentazione applicata è utile quando si confrontano trattamenti, materiali, algoritmi o condizioni operative con campioni piccoli e distribuzioni non gaussiane. Va però accompagnato da una misura dell’effetto, da intervalli o confronti post-hoc, perché un risultato statisticamente significativo non indica da solo l’entità tecnica della differenza.