Il livello di significatività, indicato di solito con \alpha, è la soglia fissata prima di eseguire un test di ipotesi. Rappresenta la probabilità massima accettata di commettere un errore di primo tipo: rifiutare l’ipotesi nulla H_0 quando H_0 è vera.
In forma sintetica:
In molti test la definizione va letta come controllo superiore:
perché in test discreti o con ipotesi composte la probabilità effettiva di rifiuto sotto H_0 può essere minore del valore nominale scelto.
1. Regola decisionale con il p-value
Il p-value è calcolato dai dati; \alpha è scelto prima di guardare i dati. La regola decisionale classica è:
Se invece
non si rifiuta H_0. Questa formulazione è volutamente prudente: “non rifiutare” non significa “dimostrare che H_0 è vera”; significa che i dati non forniscono evidenza sufficiente contro H_0 al livello prefissato.
La differenza fra p-value e livello di significatività è centrale:
| Quantità | Quando si decide | Che cosa rappresenta |
|---|---|---|
| \alpha | prima dell’esperimento | rischio massimo di falso positivo accettato |
| p-value | dopo aver osservato i dati | quanto i dati sono estremi sotto H_0 |
Scegliere \alpha dopo aver visto il p-value altera il significato del test e aumenta il rischio di conclusioni opportunistiche.
2. Regione critica
Un test può essere descritto anche tramite una regione critica, cioè l’insieme dei valori della statistica test che portano al rifiuto di H_0.
Per esempio, se sotto H_0 una statistica Z segue approssimativamente una normale standard e il test è bilaterale, si rifiuta per valori molto lontani da 0:
La soglia z_{1-\alpha/2} è scelta in modo che, sotto H_0:
Nel test bilaterale il rischio \alpha viene diviso nelle due code della distribuzione. Con \alpha=0{,}05, per esempio, restano 0{,}025 in ciascuna coda.
Nel test unilaterale tutto il rischio sta in una sola coda:
oppure
a seconda della direzione dell’ipotesi alternativa. Per questo un test unilaterale al 5\% ha una soglia critica diversa da un test bilaterale al 5\%.
3. Valori comuni e scelta del livello
I valori più frequenti sono:
| \alpha | Lettura operativa | Uso tipico |
|---|---|---|
| 0{,}10 | test permissivo | analisi esplorative, screening preliminare |
| 0{,}05 | convenzione standard | molti studi sperimentali e applicazioni didattiche |
| 0{,}01 | test più conservativo | contesti con costo alto dei falsi positivi |
| 0{,}001 | soglia molto severa | molte verifiche simultanee o evidenza richiesta molto forte |
Il valore 0{,}05 non è una legge naturale. È una convenzione storica utile, ma la scelta corretta dipende dal costo degli errori, dalla disciplina, dal disegno sperimentale, dalla numerosità campionaria e dalla conseguenza pratica della decisione.
In un sistema di allarme industriale, un \alpha alto può produrre molti falsi allarmi e fermi macchina inutili. In un controllo di sicurezza, però, abbassare troppo \alpha può aumentare il rischio opposto: non rilevare un difetto reale se il campione non è abbastanza grande.
4. Errore di primo tipo, errore di secondo tipo e potenza
Il livello di significatività controlla l’errore di primo e secondo tipo solo per la parte relativa al falso positivo:
L’errore di secondo tipo, indicato con \beta, è invece:
La potenza statistica è:
A parità di dimensione campionaria e variabilità, abbassare \alpha rende il test più conservativo: diminuisce la probabilità di falso positivo, ma può aumentare \beta e quindi ridurre la potenza. Per mantenere alta la potenza con un \alpha più piccolo, spesso serve aumentare il campione o migliorare la precisione della misura.
Questo compromesso è progettuale, non solo matematico. In ingegneria si deve decidere quale errore sia più costoso: un falso allarme, un difetto non rilevato, un trattamento inutile, una modifica di processo non necessaria o una mancata individuazione di un miglioramento reale.
5. Collegamento con intervalli di confidenza
Per molti test bilaterali standard, rifiutare H_0:\theta=\theta_0 al livello \alpha è equivalente a dire che \theta_0 non appartiene all’intervallo di confidenza al livello 1-\alpha.
Per esempio, con \alpha=0{,}05 il livello di confidenza corrispondente è:
Se un intervallo di confidenza al 95\% per un parametro non contiene il valore nullo ipotizzato, il test bilaterale al 5\% rifiuta quel valore. Questa equivalenza dipende però dal test e dalla costruzione dell’intervallo: non va applicata meccanicamente a ogni procedura.
6. Significatività statistica e rilevanza pratica
Un risultato “statisticamente significativo” al livello \alpha indica che il test ha rifiutato H_0 secondo la soglia prefissata. Non dice, da solo, che l’effetto sia grande, utile o tecnicamente importante.
Con campioni molto grandi, anche differenze piccole possono produrre p-value molto bassi. Con campioni piccoli, differenze tecnicamente rilevanti possono non risultare significative perché il test ha poca potenza.
Per una lettura ingegneristica servono almeno tre elementi:
- il p-value o la decisione rispetto ad \alpha;
- una stima della dimensione dell’effetto;
- un intervallo di confidenza o una misura dell’incertezza.
Senza questi elementi, la significatività rischia di diventare una soglia burocratica invece di una valutazione quantitativa del problema.
7. Test multipli
Quando si eseguono molti test, il rischio di almeno un falso positivo cresce. Se si fanno m test indipendenti ciascuno al livello \alpha, la probabilità di ottenere almeno un rifiuto spurio può essere molto più alta di \alpha.
Per questo, in analisi con molte variabili, confronti multipli, screening industriali o modelli con molte ipotesi, si usano procedure di correzione o controllo dell’errore complessivo. Una correzione semplice e conservativa è assegnare a ciascun test una soglia più piccola, per esempio dell’ordine di:
Il principio operativo è: il livello di significatività deve riferirsi alla domanda decisionale reale. Se la domanda riguarda una famiglia di confronti, controllare ogni test isolatamente può essere insufficiente.
8. Come riportarlo correttamente
In un report tecnico o scientifico è buona pratica dichiarare:
| Elemento | Perché serve |
|---|---|
| \alpha scelto | definisce la soglia prima della decisione |
| test usato | determina statistica, ipotesi e distribuzione sotto H_0 |
| alternativa | unilaterale o bilaterale cambia la regione critica |
| p-value | mostra quanto i dati siano estremi sotto H_0 |
| dimensione dell’effetto | separa evidenza statistica e importanza pratica |
| intervallo di confidenza | comunica incertezza e scala dell’effetto |
Scrivere solo “significativo” o “non significativo” è povero: non dice quale soglia sia stata usata, quanto il risultato sia vicino alla soglia e quanto sia grande l’effetto stimato.
9. Errori comuni
Il primo errore è interpretare \alpha=0{,}05 come “probabilità del 5\% che H_0 sia vera”. Nel quadro frequentista classico, H_0 non è trattata come una variabile casuale: \alpha riguarda la procedura di decisione sotto l’ipotesi che H_0 sia vera.
Il secondo errore è scegliere \alpha dopo aver visto i dati. Questo trasforma una soglia decisionale prefissata in una giustificazione retroattiva.
Il terzo errore è confondere \alpha e p-value. \alpha è la soglia; il p-value è il risultato calcolato dai dati.
Il quarto errore è trattare 0{,}05 come confine assoluto tra vero e falso. Un p-value di 0{,}049 e uno di 0{,}051 non rappresentano mondi scientifici opposti: vanno interpretati insieme a effetto, incertezza, potenza e contesto.
Il quinto errore è abbassare \alpha senza ripensare la potenza. Un test più severo può diventare incapace di rilevare effetti reali se il campione resta troppo piccolo.
Il sesto errore è ignorare i test multipli. Ripetere molte analisi allo stesso livello nominale aumenta la probabilità di falsi positivi se non si corregge il criterio decisionale.
Vedi anche: test di ipotesi, p-value, errore di primo e secondo tipo, potenza statistica, intervallo di confidenza e formulario di statistica inferenziale.