V di Cramér

Indice dei contenuti

    La V di Cramér misura l’intensità dell’associazione tra due variabili categoriche in una tabella di contingenza. È definita come:

    V=\sqrt{\dfrac{\chi^2}{n(\min(r,c)-1)}}.

    Il valore appartiene a [0,1]: valori vicini a zero indicano associazione debole, valori alti indicano associazione più forte.

    La V di Cramér non indica direzione causale e non sostituisce il controllo delle frequenze attese. È utile perché normalizza la statistica chi-quadro, rendendo confrontabili tabelle di dimensione diversa.

    Contesto: tabelle di contingenza

    La V di Cramér si applica a una tabella di contingenza r\times c, in cui due variabili categoriche vengono incrociate. Se O_{ij} è la frequenza osservata nella cella (i,j), le frequenze attese sotto indipendenza sono

    E_{ij}= \dfrac{O_{i\cdot}O_{\cdot j}}{n},

    dove O_{i\cdot} è il totale della riga i, O_{\cdot j} il totale della colonna j e n la numerosità totale.

    La statistica chi-quadro è

    \chi^2= \sum_{i=1}^r \sum_{j=1}^c \dfrac{(O_{ij}-E_{ij})^2}{E_{ij}}.

    La V di Cramér normalizza questa quantità per renderla interpretabile su una scala comune.

    Formula

    La definizione è

    V= \sqrt{ \dfrac{\chi^2} {n\min(r-1,c-1)} }.

    È equivalente alla forma

    V= \sqrt{ \dfrac{\chi^2} {n(\min(r,c)-1)} }.

    Il denominatore corregge per numerosità campionaria e dimensione della tabella. Senza normalizzazione, \chi^2 cresce con n e non è una misura diretta dell’intensità dell’associazione.

    Relazione con il test chi-quadro

    Il test chi-quadro valuta se l’associazione osservata è statisticamente incompatibile con l’indipendenza. La V di Cramér misura quanto l’associazione è intensa.

    Le due informazioni sono complementari. Con campioni molto grandi, un’associazione debolissima può risultare statisticamente significativa; con campioni piccoli, un’associazione forte può non raggiungere significatività. Per questo conviene riportare sia il p-value sia una misura di effetto come V.

    Interpretazione

    Il valore V=0 indica indipendenza perfetta nella tabella osservata. Valori più alti indicano maggiore deviazione dall’indipendenza. Il limite superiore è 1, ma il significato pratico di “alto” dipende dal dominio, dalla dimensione della tabella e dalla distribuzione delle categorie.

    Non esistono soglie universali. In alcuni contesti, V=0{,}20 può essere operativamente rilevante; in altri può essere trascurabile. La misura va sempre letta insieme alla tabella delle frequenze.

    Caso 2x2

    Per una tabella 2\times2, la V di Cramér coincide con il valore assoluto del coefficiente \phi:

    V=|\phi|.

    In questo caso si può spesso affiancare anche l’odds ratio, che fornisce una lettura più direzionale dell’associazione tra due categorie binarie.

    Frequenze attese e celle rare

    La V di Cramér eredita i limiti della statistica chi-quadro. Se molte frequenze attese sono molto basse, la stima può essere instabile e l’inferenza del test chi-quadro poco affidabile. In tabelle 2\times2 con campioni piccoli può essere più appropriato il test esatto di Fisher.

    Categorie molto rare possono aumentare artificialmente la misura o renderla difficile da interpretare. A volte è necessario aggregare categorie, se l’aggregazione ha senso sostanziale.

    Errori comuni

    Un errore frequente è leggere la V di Cramér come misura di causalità. La misura descrive associazione nella tabella, non direzione causale né meccanismo. Un altro errore è confrontare valori di V tra dataset con codifiche categoriali molto diverse senza guardare le frequenze sottostanti.

    In applicazioni di qualità, marketing, affidabilità o analisi sperimentale, la V di Cramér è utile perché separa l’entità dell’associazione dalla sola significatività statistica. Va però sempre accompagnata da tabella osservata, frequenze attese e interpretazione tecnica delle categorie.

    Ultimo aggiornamento: