Tabella di contingenza — ingegnerismo.it

Una tabella di contingenza è una tabella di conteggi che incrocia due o più variabili categoriche. Serve a studiare come le categorie di una variabile si distribuiscono rispetto alle categorie di un’altra: difetto/non difetto per linea produttiva, esito positivo/negativo per trattamento, classe di rischio per area geografica, risposta a un sondaggio per gruppo di utenti.

Per due variabili, una tabella $r\times c$ ha $r$ righe e $c$ colonne. L’elemento $n_{ij}$ è il numero di osservazioni nella riga $i$ e nella colonna $j$ . A differenza di una tabella di misure continue, qui le celle contengono frequenze, non valori medi.

Struttura

Una forma generale è:

	Colonna 1	Colonna 2	Totale riga
Riga 1	$n_{11}$	$n_{12}$	$n_{1\cdot}$
Riga 2	$n_{21}$	$n_{22}$	$n_{2\cdot}$
Totale colonna	$n_{\cdot1}$	$n_{\cdot2}$	$n$

Il punto nel pedice indica una somma. Quindi:

n_{i\cdot} = \sum_{j=1}^{c}n_{ij}

è il totale della riga $i$ , mentre:

n_{\cdot j} = \sum_{i=1}^{r}n_{ij}

è il totale della colonna $j$ . Il totale complessivo è:

n = \sum_{i=1}^{r}\sum_{j=1}^{c}n_{ij}.

I totali di riga e colonna sono detti marginali. Sono importanti perché descrivono la distribuzione separata delle due variabili. Le celle interne descrivono invece la distribuzione congiunta.

Frequenze relative

Oltre ai conteggi assoluti, si usano spesso percentuali di riga, percentuali di colonna e percentuali sul totale. Non sono equivalenti:

la percentuale di riga risponde a “dentro questa riga, come si distribuiscono le colonne?”;
la percentuale di colonna risponde a “dentro questa colonna, come si distribuiscono le righe?”;
la percentuale sul totale risponde a “quanto pesa questa cella sull’intero campione?”.

La scelta dipende dal disegno dello studio. In un’indagine in cui i gruppi di riga sono fissati dal campionamento, le percentuali di riga possono essere più informative; in un confronto di composizione dentro categorie di esito, possono essere più utili le percentuali di colonna.

Indipendenza

Due variabili categoriche sono indipendenti se conoscere la categoria di una non cambia la distribuzione dell’altra. In una tabella di contingenza, sotto indipendenza, la probabilità attesa della cella $(i,j)$ è il prodotto delle probabilità marginali:

P(R=i,C=j) = P(R=i)P(C=j).

Sostituendo le probabilità con le frequenze campionarie si ottengono le frequenze attese:

e_{ij}=\dfrac{n_{i\cdot}n_{\cdot j}}{n}.

Qui $e_{ij}$ è il conteggio che ci si aspetterebbe nella cella se le due variabili fossero indipendenti, mantenendo fissi i marginali osservati. Il confronto tra osservati $n_{ij}$ e attesi $e_{ij}$ è il nucleo dell’analisi.

Test chi-quadro

Il test chi-quadro di indipendenza valuta se gli scostamenti tra frequenze osservate e attese sono compatibili con fluttuazioni casuali. La statistica è:

\chi^2 = \sum_{i=1}^{r}\sum_{j=1}^{c} \dfrac{(n_{ij}-e_{ij})^2}{e_{ij}}.

Ogni cella contribuisce in proporzione allo scarto quadratico normalizzato dall’atteso. Uno scarto di $5$ unità è molto rilevante se l’atteso è $3$ , ma molto meno se l’atteso è $500$ .

Sotto l’ipotesi nulla di indipendenza, e con condizioni campionarie adeguate, la statistica viene confrontata con una distribuzione chi-quadro con:

(r-1)(c-1)

gradi di libertà. Il p-value misura quanto sarebbe raro ottenere una statistica almeno così grande se le variabili fossero davvero indipendenti.

Residui

Il test globale dice se la tabella mostra evidenza di associazione, ma non dice subito quali celle spiegano lo scostamento. Per questo si guardano i residui di Pearson:

r_{ij} = \dfrac{n_{ij}-e_{ij}}{\sqrt{e_{ij}}}.

Un residuo positivo indica una cella più frequente del previsto sotto indipendenza; un residuo negativo indica una cella meno frequente del previsto. I residui aiutano a leggere il profilo dell’associazione invece di fermarsi a un solo numero.

In analisi applicata conviene affiancare residui, percentuali e conoscenza del processo. Una cella può contribuire molto alla statistica perché ha grande scarto relativo, ma rappresentare pochi casi assoluti; viceversa, piccoli scarti su celle grandi possono essere statisticamente significativi ma operativamente poco rilevanti.

Misure di associazione

La significatività statistica non misura l’intensità del legame. Con campioni molto grandi, anche differenze piccole possono produrre p-value bassi. Per quantificare l’effetto si usano misure di associazione.

Per tabelle generali, la V di Cramér normalizza la statistica chi-quadro:

V = \sqrt{ \dfrac{\chi^2} {n\min(r-1,c-1)} }.

Il valore è compreso tra $0$ e $1$ : vicino a $0$ indica associazione debole, valori più alti indicano legame più marcato. L’interpretazione pratica dipende dal contesto, dalla dimensione della tabella e dal dominio.

Per tabelle $2\times2$ si usano spesso anche odds ratio e differenze di proporzioni. Se la tabella è:

	Esito sì	Esito no
Esposto	$a$	$b$
Non esposto	$c$	$d$

l’odds ratio è:

\operatorname{OR} = \dfrac{a/b}{c/d} = \dfrac{ad}{bc}.

Questa misura è particolarmente usata in epidemiologia, qualità, diagnostica e studi caso-controllo, ma va interpretata con cautela quando gli eventi sono comuni.

Celle piccole e test esatto

L’approssimazione chi-quadro richiede frequenze attese sufficientemente grandi. Le regole pratiche variano, ma un segnale di attenzione è la presenza di molte celle con atteso sotto $5$ o celle con atteso molto vicino a zero.

In tabelle $2\times2$ con campioni piccoli, il test esatto di Fisher può essere più appropriato perché calcola probabilità esatte condizionando sui marginali. In tabelle più grandi si possono aggregare categorie, usare metodi esatti o simulazioni Monte Carlo, purché l’aggregazione abbia senso tecnico e non sia fatta solo per ottenere un risultato significativo.

Applicazioni

Nel controllo qualità, una tabella di contingenza può incrociare linea produttiva e tipo di difetto. L’obiettivo non è solo sapere se esiste associazione, ma capire quali linee producono quali difetti in eccesso rispetto all’atteso.

In diagnostica, può incrociare risultato del test e stato reale del paziente o del componente: veri positivi, falsi positivi, falsi negativi e veri negativi. Da una tabella $2\times2$ si derivano sensibilità, specificità, valore predittivo positivo e valore predittivo negativo.

Nel marketing e nella progettazione di interfacce, può incrociare segmento utente e risposta a una variante. In affidabilità, può collegare ambiente operativo e modalità di guasto. In cybersecurity, può incrociare famiglia di vulnerabilità e severità degli incidenti.

Condizioni di qualità dei dati

Le categorie devono essere mutuamente esclusive, esaustive e definite prima dell’analisi. Se una osservazione può finire in più celle, la tabella non rappresenta più un conteggio semplice. Se molte osservazioni cadono in “altro” o “non classificato”, l’interpretazione diventa debole.

Il campionamento conta quanto la formula. Una tabella costruita su dati osservazionali può mostrare associazioni dovute a confondimento, selezione del campione o variabili nascoste. Una tabella bilanciata artificialmente richiede percentuali e test coerenti con il disegno.

Errori comuni

Il primo errore è interpretare associazione come causalità. Una tabella può mostrare dipendenza statistica tra due variabili categoriche, ma non dimostra da sola che una variabile causi l’altra.

Il secondo errore è guardare solo il p-value. Senza percentuali, residui e misura di effetto, si rischia di non capire quali celle contano davvero e se l’effetto sia rilevante.

Il terzo errore è applicare il chi-quadro con celle attese troppo basse. In quel caso l’approssimazione può essere inaffidabile e servono Fisher, aggregazioni motivate o metodi alternativi.

Il quarto errore è cambiare categorie dopo aver visto i risultati. Raggruppare livelli per aumentare la significatività altera l’inferenza; se si aggregano categorie, la ragione deve essere tecnica e dichiarata.

Vedi anche: test chi-quadro, distribuzione chi-quadro, residuo di Pearson, V di Cramér, odds ratio, test esatto di Fisher e indipendenza stocastica.