Livello di significatività — ingegnerismo.it

Il livello di significatività, indicato di solito con $\alpha$ , è la soglia fissata prima di eseguire un test di ipotesi. Rappresenta la probabilità massima accettata di commettere un errore di primo tipo: rifiutare l’ipotesi nulla $H_0$ quando $H_0$ è vera.

In forma sintetica:

\alpha = P(\text{rifiutare }H_0\mid H_0\text{ vera}).

In molti test la definizione va letta come controllo superiore:

P_{H_0}(\text{rifiutare }H_0)\le \alpha,

perché in test discreti o con ipotesi composte la probabilità effettiva di rifiuto sotto $H_0$ può essere minore del valore nominale scelto.

1. Regola decisionale con il p-value

Il p-value è calcolato dai dati; $\alpha$ è scelto prima di guardare i dati. La regola decisionale classica è:

p\text{-value}\le\alpha \quad\Longrightarrow\quad \text{rifiuto di }H_0.

Se invece

p\text{-value}>\alpha,

non si rifiuta $H_0$ . Questa formulazione è volutamente prudente: “non rifiutare” non significa “dimostrare che $H_0$ è vera”; significa che i dati non forniscono evidenza sufficiente contro $H_0$ al livello prefissato.

La differenza fra p-value e livello di significatività è centrale:

Quantità	Quando si decide	Che cosa rappresenta
$\alpha$	prima dell’esperimento	rischio massimo di falso positivo accettato
p-value	dopo aver osservato i dati	quanto i dati sono estremi sotto $H_0$

Scegliere $\alpha$ dopo aver visto il p-value altera il significato del test e aumenta il rischio di conclusioni opportunistiche.

2. Regione critica

Un test può essere descritto anche tramite una regione critica, cioè l’insieme dei valori della statistica test che portano al rifiuto di $H_0$ .

Per esempio, se sotto $H_0$ una statistica $Z$ segue approssimativamente una normale standard e il test è bilaterale, si rifiuta per valori molto lontani da $0$ :

|Z|>z_{1-\alpha/2}.

La soglia $z_{1-\alpha/2}$ è scelta in modo che, sotto $H_0$ :

P\left(|Z|>z_{1-\alpha/2}\right)=\alpha.

Nel test bilaterale il rischio $\alpha$ viene diviso nelle due code della distribuzione. Con $\alpha=0{,}05$ , per esempio, restano $0{,}025$ in ciascuna coda.

Nel test unilaterale tutto il rischio sta in una sola coda:

Z>z_{1-\alpha}

oppure

Z<z_{\alpha},

a seconda della direzione dell’ipotesi alternativa. Per questo un test unilaterale al $5\%$ ha una soglia critica diversa da un test bilaterale al $5\%$ .

3. Valori comuni e scelta del livello

I valori più frequenti sono:

$\alpha$	Lettura operativa	Uso tipico
$0{,}10$	test permissivo	analisi esplorative, screening preliminare
$0{,}05$	convenzione standard	molti studi sperimentali e applicazioni didattiche
$0{,}01$	test più conservativo	contesti con costo alto dei falsi positivi
$0{,}001$	soglia molto severa	molte verifiche simultanee o evidenza richiesta molto forte

Il valore $0{,}05$ non è una legge naturale. È una convenzione storica utile, ma la scelta corretta dipende dal costo degli errori, dalla disciplina, dal disegno sperimentale, dalla numerosità campionaria e dalla conseguenza pratica della decisione.

In un sistema di allarme industriale, un $\alpha$ alto può produrre molti falsi allarmi e fermi macchina inutili. In un controllo di sicurezza, però, abbassare troppo $\alpha$ può aumentare il rischio opposto: non rilevare un difetto reale se il campione non è abbastanza grande.

4. Errore di primo tipo, errore di secondo tipo e potenza

Il livello di significatività controlla l’errore di primo e secondo tipo solo per la parte relativa al falso positivo:

\alpha = P(\text{errore di primo tipo}).

L’errore di secondo tipo, indicato con $\beta$ , è invece:

\beta = P(\text{non rifiutare }H_0\mid H_1\text{ vera}).

La potenza statistica è:

1-\beta.

A parità di dimensione campionaria e variabilità, abbassare $\alpha$ rende il test più conservativo: diminuisce la probabilità di falso positivo, ma può aumentare $\beta$ e quindi ridurre la potenza. Per mantenere alta la potenza con un $\alpha$ più piccolo, spesso serve aumentare il campione o migliorare la precisione della misura.

Questo compromesso è progettuale, non solo matematico. In ingegneria si deve decidere quale errore sia più costoso: un falso allarme, un difetto non rilevato, un trattamento inutile, una modifica di processo non necessaria o una mancata individuazione di un miglioramento reale.

5. Collegamento con intervalli di confidenza

Per molti test bilaterali standard, rifiutare $H_0:\theta=\theta_0$ al livello $\alpha$ è equivalente a dire che $\theta_0$ non appartiene all’intervallo di confidenza al livello $1-\alpha$ .

Per esempio, con $\alpha=0{,}05$ il livello di confidenza corrispondente è:

1-\alpha=0{,}95.

Se un intervallo di confidenza al $95\%$ per un parametro non contiene il valore nullo ipotizzato, il test bilaterale al $5\%$ rifiuta quel valore. Questa equivalenza dipende però dal test e dalla costruzione dell’intervallo: non va applicata meccanicamente a ogni procedura.

6. Significatività statistica e rilevanza pratica

Un risultato “statisticamente significativo” al livello $\alpha$ indica che il test ha rifiutato $H_0$ secondo la soglia prefissata. Non dice, da solo, che l’effetto sia grande, utile o tecnicamente importante.

Con campioni molto grandi, anche differenze piccole possono produrre p-value molto bassi. Con campioni piccoli, differenze tecnicamente rilevanti possono non risultare significative perché il test ha poca potenza.

Per una lettura ingegneristica servono almeno tre elementi:

il p-value o la decisione rispetto ad $\alpha$ ;
una stima della dimensione dell’effetto;
un intervallo di confidenza o una misura dell’incertezza.

Senza questi elementi, la significatività rischia di diventare una soglia burocratica invece di una valutazione quantitativa del problema.

7. Test multipli

Quando si eseguono molti test, il rischio di almeno un falso positivo cresce. Se si fanno $m$ test indipendenti ciascuno al livello $\alpha$ , la probabilità di ottenere almeno un rifiuto spurio può essere molto più alta di $\alpha$ .

Per questo, in analisi con molte variabili, confronti multipli, screening industriali o modelli con molte ipotesi, si usano procedure di correzione o controllo dell’errore complessivo. Una correzione semplice e conservativa è assegnare a ciascun test una soglia più piccola, per esempio dell’ordine di:

\dfrac{\alpha}{m}.

Il principio operativo è: il livello di significatività deve riferirsi alla domanda decisionale reale. Se la domanda riguarda una famiglia di confronti, controllare ogni test isolatamente può essere insufficiente.

8. Come riportarlo correttamente

In un report tecnico o scientifico è buona pratica dichiarare:

Elemento	Perché serve
$\alpha$ scelto	definisce la soglia prima della decisione
test usato	determina statistica, ipotesi e distribuzione sotto $H_0$
alternativa	unilaterale o bilaterale cambia la regione critica
p-value	mostra quanto i dati siano estremi sotto $H_0$
dimensione dell’effetto	separa evidenza statistica e importanza pratica
intervallo di confidenza	comunica incertezza e scala dell’effetto

Scrivere solo “significativo” o “non significativo” è povero: non dice quale soglia sia stata usata, quanto il risultato sia vicino alla soglia e quanto sia grande l’effetto stimato.

9. Errori comuni

Il primo errore è interpretare $\alpha=0{,}05$ come “probabilità del $5\%$ che $H_0$ sia vera”. Nel quadro frequentista classico, $H_0$ non è trattata come una variabile casuale: $\alpha$ riguarda la procedura di decisione sotto l’ipotesi che $H_0$ sia vera.

Il secondo errore è scegliere $\alpha$ dopo aver visto i dati. Questo trasforma una soglia decisionale prefissata in una giustificazione retroattiva.

Il terzo errore è confondere $\alpha$ e p-value. $\alpha$ è la soglia; il p-value è il risultato calcolato dai dati.

Il quarto errore è trattare $0{,}05$ come confine assoluto tra vero e falso. Un p-value di $0{,}049$ e uno di $0{,}051$ non rappresentano mondi scientifici opposti: vanno interpretati insieme a effetto, incertezza, potenza e contesto.

Il quinto errore è abbassare $\alpha$ senza ripensare la potenza. Un test più severo può diventare incapace di rilevare effetti reali se il campione resta troppo piccolo.

Il sesto errore è ignorare i test multipli. Ripetere molte analisi allo stesso livello nominale aumenta la probabilità di falsi positivi se non si corregge il criterio decisionale.

Vedi anche: test di ipotesi, p-value, errore di primo e secondo tipo, potenza statistica, intervallo di confidenza e formulario di statistica inferenziale.