Test di Kruskal-Wallis — ingegnerismo.it

Il test di Kruskal-Wallis è un test non parametrico basato sui ranghi usato per confrontare tre o più gruppi indipendenti. È spesso presentato come alternativa alla ANOVA a una via quando l’ipotesi di normalità dei residui è debole, quando la scala di misura è almeno ordinale o quando la presenza di valori estremi rende poco robusto il confronto sulle medie.

L’idea è sostituire i valori osservati con i loro ranghi nell’insieme complessivo dei dati. Se i gruppi provengono dalla stessa distribuzione, le somme dei ranghi dovrebbero essere compatibili con una ripartizione casuale; se un gruppo tende ad avere valori sistematicamente più alti o più bassi, i suoi ranghi medi si spostano.

Ipotesi nulla e significato del test

Con $k$ gruppi indipendenti, l’ipotesi nulla afferma che le distribuzioni dei gruppi sono uguali:

H_0:F_1=F_2=\dots=F_k.

L’ipotesi alternativa è che almeno una distribuzione differisca dalle altre. Se le distribuzioni hanno forma simile e differiscono soprattutto per uno spostamento di posizione, il test viene letto operativamente come confronto tra mediane o posizioni centrali. Se invece forme, dispersioni o asimmetrie sono diverse, un rifiuto di $H_0$ segnala una differenza distributiva più generale, non necessariamente una sola differenza di mediana.

Questa distinzione è importante: Kruskal-Wallis non è semplicemente una ANOVA “senza normalità”. È un test sui ranghi, quindi perde informazione sulle distanze numeriche ma guadagna robustezza rispetto a scale ordinali e outlier.

Statistica di Kruskal-Wallis

Siano $n_i$ le numerosità dei gruppi, $N=\sum_{i=1}^k n_i$ la numerosità totale e $R_i$ la somma dei ranghi assegnati alle osservazioni del gruppo $i$ . In assenza di pareggi, la statistica è

H= \dfrac{12}{N(N+1)} \sum_{i=1}^k\dfrac{R_i^2}{n_i} -3(N+1).

Sotto l’ipotesi nulla e per campioni non troppo piccoli, $H$ è approssimativamente distribuita come una distribuzione chi-quadro con $k-1$ gradi di libertà:

H\ \dot{\sim}\ \chi^2_{k-1}.

Il p-value è quindi calcolato come probabilità di osservare un valore almeno così grande della statistica sotto $H_0$ . Valori elevati di $H$ indicano che le somme dei ranghi sono troppo sbilanciate per essere attribuite al solo caso.

Correzione per pareggi

Nelle applicazioni reali sono frequenti osservazioni uguali, soprattutto con scale discrete o punteggi ordinali. In presenza di pareggi si assegna a ciascun valore ripetuto il rango medio e si applica una correzione:

C= 1- \dfrac{\sum_j(t_j^3-t_j)}{N^3-N}, \qquad H_{\text{corr}}=\dfrac{H}{C},

dove $t_j$ è la dimensione del blocco di pareggi $j$ . Se i pareggi sono pochi, la correzione incide poco; se sono molti, ignorarla può rendere il test troppo ottimistico o alterarne il livello.

Procedura operativa

La procedura pratica è lineare:

unire tutte le osservazioni;
ordinarle e assegnare i ranghi;
sommare i ranghi entro ciascun gruppo;
calcolare $H$ ;
confrontare $H$ con la legge $\chi^2_{k-1}$ o usare un p-value esatto/permutazionale per campioni piccoli.

Quando il test rifiuta l’ipotesi nulla, non dice automaticamente quali gruppi differiscono. Servono confronti post-hoc sui ranghi, con correzione per confronti multipli. Senza questa fase, concludere “tutti i gruppi sono diversi” è un errore: il test globale afferma solo che almeno una differenza esiste.

Condizioni d’uso

Il test richiede gruppi indipendenti, osservazioni indipendenti all’interno dei gruppi e una variabile almeno ordinale. Non è adatto a misure appaiate o ripetute sugli stessi soggetti: in quel caso serve una procedura diversa, perché l’indipendenza tra gruppi è violata.

Rispetto al test F dell’ANOVA, Kruskal-Wallis è meno sensibile alle ipotesi parametriche, ma non elimina la necessità di guardare i dati. Grafici a scatola, ranghi medi, numerosità e dispersioni restano essenziali per interpretare correttamente il risultato.

Errori comuni

Un errore frequente è presentare il test come confronto automatico delle mediane. Questa lettura è difendibile solo quando le distribuzioni dei gruppi hanno forma confrontabile. Un altro errore è usare Kruskal-Wallis per evitare ogni diagnostica: se i gruppi hanno dispersioni molto diverse, il test può rifiutare per differenze di forma più che per differenze di posizione.

In ingegneria e sperimentazione applicata è utile quando si confrontano trattamenti, materiali, algoritmi o condizioni operative con campioni piccoli e distribuzioni non gaussiane. Va però accompagnato da una misura dell’effetto, da intervalli o confronti post-hoc, perché un risultato statisticamente significativo non indica da solo l’entità tecnica della differenza.