Livello di significatività

Indice dei contenuti

    Il livello di significatività, indicato di solito con \alpha, è la soglia fissata prima di eseguire un test di ipotesi. Rappresenta la probabilità massima accettata di commettere un errore di primo tipo: rifiutare l’ipotesi nulla H_0 quando H_0 è vera.

    In forma sintetica:

    \alpha = P(\text{rifiutare }H_0\mid H_0\text{ vera}).

    In molti test la definizione va letta come controllo superiore:

    P_{H_0}(\text{rifiutare }H_0)\le \alpha,

    perché in test discreti o con ipotesi composte la probabilità effettiva di rifiuto sotto H_0 può essere minore del valore nominale scelto.

    1. Regola decisionale con il p-value

    Il p-value è calcolato dai dati; \alpha è scelto prima di guardare i dati. La regola decisionale classica è:

    p\text{-value}\le\alpha \quad\Longrightarrow\quad \text{rifiuto di }H_0.

    Se invece

    p\text{-value}>\alpha,

    non si rifiuta H_0. Questa formulazione è volutamente prudente: “non rifiutare” non significa “dimostrare che H_0 è vera”; significa che i dati non forniscono evidenza sufficiente contro H_0 al livello prefissato.

    La differenza fra p-value e livello di significatività è centrale:

    QuantitàQuando si decideChe cosa rappresenta
    \alphaprima dell’esperimentorischio massimo di falso positivo accettato
    p-valuedopo aver osservato i datiquanto i dati sono estremi sotto H_0

    Scegliere \alpha dopo aver visto il p-value altera il significato del test e aumenta il rischio di conclusioni opportunistiche.

    2. Regione critica

    Un test può essere descritto anche tramite una regione critica, cioè l’insieme dei valori della statistica test che portano al rifiuto di H_0.

    Per esempio, se sotto H_0 una statistica Z segue approssimativamente una normale standard e il test è bilaterale, si rifiuta per valori molto lontani da 0:

    |Z|>z_{1-\alpha/2}.

    La soglia z_{1-\alpha/2} è scelta in modo che, sotto H_0:

    P\left(|Z|>z_{1-\alpha/2}\right)=\alpha.

    Nel test bilaterale il rischio \alpha viene diviso nelle due code della distribuzione. Con \alpha=0{,}05, per esempio, restano 0{,}025 in ciascuna coda.

    Nel test unilaterale tutto il rischio sta in una sola coda:

    Z>z_{1-\alpha}

    oppure

    Z<z_{\alpha},

    a seconda della direzione dell’ipotesi alternativa. Per questo un test unilaterale al 5\% ha una soglia critica diversa da un test bilaterale al 5\%.

    3. Valori comuni e scelta del livello

    I valori più frequenti sono:

    \alphaLettura operativaUso tipico
    0{,}10test permissivoanalisi esplorative, screening preliminare
    0{,}05convenzione standardmolti studi sperimentali e applicazioni didattiche
    0{,}01test più conservativocontesti con costo alto dei falsi positivi
    0{,}001soglia molto severamolte verifiche simultanee o evidenza richiesta molto forte

    Il valore 0{,}05 non è una legge naturale. È una convenzione storica utile, ma la scelta corretta dipende dal costo degli errori, dalla disciplina, dal disegno sperimentale, dalla numerosità campionaria e dalla conseguenza pratica della decisione.

    In un sistema di allarme industriale, un \alpha alto può produrre molti falsi allarmi e fermi macchina inutili. In un controllo di sicurezza, però, abbassare troppo \alpha può aumentare il rischio opposto: non rilevare un difetto reale se il campione non è abbastanza grande.

    4. Errore di primo tipo, errore di secondo tipo e potenza

    Il livello di significatività controlla l’errore di primo e secondo tipo solo per la parte relativa al falso positivo:

    \alpha = P(\text{errore di primo tipo}).

    L’errore di secondo tipo, indicato con \beta, è invece:

    \beta = P(\text{non rifiutare }H_0\mid H_1\text{ vera}).

    La potenza statistica è:

    1-\beta.

    A parità di dimensione campionaria e variabilità, abbassare \alpha rende il test più conservativo: diminuisce la probabilità di falso positivo, ma può aumentare \beta e quindi ridurre la potenza. Per mantenere alta la potenza con un \alpha più piccolo, spesso serve aumentare il campione o migliorare la precisione della misura.

    Questo compromesso è progettuale, non solo matematico. In ingegneria si deve decidere quale errore sia più costoso: un falso allarme, un difetto non rilevato, un trattamento inutile, una modifica di processo non necessaria o una mancata individuazione di un miglioramento reale.

    5. Collegamento con intervalli di confidenza

    Per molti test bilaterali standard, rifiutare H_0:\theta=\theta_0 al livello \alpha è equivalente a dire che \theta_0 non appartiene all’intervallo di confidenza al livello 1-\alpha.

    Per esempio, con \alpha=0{,}05 il livello di confidenza corrispondente è:

    1-\alpha=0{,}95.

    Se un intervallo di confidenza al 95\% per un parametro non contiene il valore nullo ipotizzato, il test bilaterale al 5\% rifiuta quel valore. Questa equivalenza dipende però dal test e dalla costruzione dell’intervallo: non va applicata meccanicamente a ogni procedura.

    6. Significatività statistica e rilevanza pratica

    Un risultato “statisticamente significativo” al livello \alpha indica che il test ha rifiutato H_0 secondo la soglia prefissata. Non dice, da solo, che l’effetto sia grande, utile o tecnicamente importante.

    Con campioni molto grandi, anche differenze piccole possono produrre p-value molto bassi. Con campioni piccoli, differenze tecnicamente rilevanti possono non risultare significative perché il test ha poca potenza.

    Per una lettura ingegneristica servono almeno tre elementi:

    1. il p-value o la decisione rispetto ad \alpha;
    2. una stima della dimensione dell’effetto;
    3. un intervallo di confidenza o una misura dell’incertezza.

    Senza questi elementi, la significatività rischia di diventare una soglia burocratica invece di una valutazione quantitativa del problema.

    7. Test multipli

    Quando si eseguono molti test, il rischio di almeno un falso positivo cresce. Se si fanno m test indipendenti ciascuno al livello \alpha, la probabilità di ottenere almeno un rifiuto spurio può essere molto più alta di \alpha.

    Per questo, in analisi con molte variabili, confronti multipli, screening industriali o modelli con molte ipotesi, si usano procedure di correzione o controllo dell’errore complessivo. Una correzione semplice e conservativa è assegnare a ciascun test una soglia più piccola, per esempio dell’ordine di:

    \dfrac{\alpha}{m}.

    Il principio operativo è: il livello di significatività deve riferirsi alla domanda decisionale reale. Se la domanda riguarda una famiglia di confronti, controllare ogni test isolatamente può essere insufficiente.

    8. Come riportarlo correttamente

    In un report tecnico o scientifico è buona pratica dichiarare:

    ElementoPerché serve
    \alpha sceltodefinisce la soglia prima della decisione
    test usatodetermina statistica, ipotesi e distribuzione sotto H_0
    alternativaunilaterale o bilaterale cambia la regione critica
    p-valuemostra quanto i dati siano estremi sotto H_0
    dimensione dell’effettosepara evidenza statistica e importanza pratica
    intervallo di confidenzacomunica incertezza e scala dell’effetto

    Scrivere solo “significativo” o “non significativo” è povero: non dice quale soglia sia stata usata, quanto il risultato sia vicino alla soglia e quanto sia grande l’effetto stimato.

    9. Errori comuni

    Il primo errore è interpretare \alpha=0{,}05 come “probabilità del 5\% che H_0 sia vera”. Nel quadro frequentista classico, H_0 non è trattata come una variabile casuale: \alpha riguarda la procedura di decisione sotto l’ipotesi che H_0 sia vera.

    Il secondo errore è scegliere \alpha dopo aver visto i dati. Questo trasforma una soglia decisionale prefissata in una giustificazione retroattiva.

    Il terzo errore è confondere \alpha e p-value. \alpha è la soglia; il p-value è il risultato calcolato dai dati.

    Il quarto errore è trattare 0{,}05 come confine assoluto tra vero e falso. Un p-value di 0{,}049 e uno di 0{,}051 non rappresentano mondi scientifici opposti: vanno interpretati insieme a effetto, incertezza, potenza e contesto.

    Il quinto errore è abbassare \alpha senza ripensare la potenza. Un test più severo può diventare incapace di rilevare effetti reali se il campione resta troppo piccolo.

    Il sesto errore è ignorare i test multipli. Ripetere molte analisi allo stesso livello nominale aumenta la probabilità di falsi positivi se non si corregge il criterio decisionale.

    Vedi anche: test di ipotesi, p-value, errore di primo e secondo tipo, potenza statistica, intervallo di confidenza e formulario di statistica inferenziale.

    Ultimo aggiornamento: