Quantile

Indice dei contenuti

    Il quantile è un valore soglia che divide una distribuzione secondo una probabilità cumulata assegnata. Il quantile di livello \alpha\in(0,1) è il valore al di sotto del quale cade una frazione \alpha della popolazione, o del campione, secondo la distribuzione considerata.

    È uno strumento più generale della media: descrive posizione, code, soglie di rischio, percentili di prestazione e limiti di progetto. In molte applicazioni ingegneristiche interessa più sapere il 95-esimo percentile di una latenza, di un carico o di una tolleranza, che il suo valore medio.

    1. Definizione tramite funzione di ripartizione

    Per una variabile aleatoria X con funzione di ripartizione F, il quantile di livello \alpha è definito come:

    q_\alpha=\inf\{x:\ F(x)\ge \alpha\}.

    Questa definizione con l’infimo è importante perché funziona anche per distribuzioni discrete o con tratti piatti. Se F è continua e strettamente crescente, il quantile coincide con l’inversa:

    q_\alpha=F^{-1}(\alpha).

    In generale, però, l’inversa classica può non esistere o non essere unica. La definizione generalizzata garantisce una soglia ben definita anche quando la distribuzione ha salti.

    2. Interpretazione probabilistica

    Dire che q_{0{,}9} è il quantile di livello 0{,}9 significa che:

    P(X\le q_{0{,}9})\ge 0{,}9.

    Per distribuzioni continue vale tipicamente:

    P(X\le q_{0{,}9})=0{,}9.

    Il quantile non dice quanto siano grandi i valori sopra soglia, ma dove inizia una certa porzione della distribuzione. Per questo va distinto da misure di coda che considerano anche l’entità degli eccessi oltre soglia.

    3. Mediana, quartili e percentili

    La mediana è il quantile di livello 0{,}5. Divide la distribuzione in due parti con probabilità almeno metà a sinistra e almeno metà a destra.

    I quartili sono:

    q_{0{,}25},\qquad q_{0{,}5},\qquad q_{0{,}75}.

    I percentili sono quantili espressi su scala 0-100. Il 95-esimo percentile è:

    q_{0{,}95}.

    In report tecnici si usano spesso percentile 5, 50, 95 o 99 per descrivere intervalli operativi, code e casi sfavorevoli.

    4. Quantili campionari

    Dato un campione x_1,\dots,x_n, si ordinano le osservazioni:

    x_{(1)}\le x_{(2)}\le\cdots\le x_{(n)}.

    Un quantile campionario è ottenuto scegliendo una posizione legata a \alpha(n+1) o a varianti simili. Non esiste una sola convenzione universale: software diversi possono usare regole di interpolazione diverse.

    Per esempio, una forma semplice consiste nel prendere:

    \widehat{q}_\alpha=x_{(\lceil n\alpha\rceil)}.

    Altre definizioni interpolano tra due statistiche d’ordine. Le differenze sono piccole nei campioni grandi, ma possono essere rilevanti in campioni piccoli o quando si stimano quantili estremi.

    5. Quantili e distribuzione normale

    Per la distribuzione normale standard Z\sim\mathcal{N}(0,1), il quantile z_\alpha soddisfa:

    \Phi(z_\alpha)=\alpha.

    Alcuni valori sono ricorrenti:

    z_{0{,}975}\approx 1{,}96, \qquad z_{0{,}95}\approx 1{,}645.

    Questi quantili compaiono in intervalli di confidenza, test di ipotesi, carte di controllo e approssimazioni asintotiche.

    6. Quantili e robustezza

    I quantili sono più robusti della media rispetto a valori estremi. La mediana, per esempio, può restare stabile anche quando pochi outlier sono molto grandi o molto piccoli.

    Questa robustezza rende i quantili utili per descrivere distribuzioni asimmetriche: tempi di attesa, costi, durate, concentrazioni, errori, ritardi di rete, carichi massimi e dati economici. In questi casi media e deviazione standard possono non rappresentare bene il comportamento operativo.

    7. Quantili condizionati

    La regressione quantile generalizza il concetto stimando quantili della risposta condizionati a covariate:

    Q_Y(\alpha\mid x).

    Questo permette di studiare come i predittori modificano non solo la media, ma anche la coda bassa, la mediana o la coda alta. È utile quando i requisiti tecnici sono formulati in termini di percentili: tempo di risposta sotto una soglia per il 95% delle richieste, resistenza minima per il 99% dei pezzi, errore massimo accettabile nella maggior parte dei casi.

    8. Applicazioni

    I quantili sono usati per:

    • soglie di progetto e margini di sicurezza;
    • specifiche di qualità e tolleranze;
    • intervalli di predizione e tolleranza;
    • analisi di rischio;
    • stima di percentili di latenza o affidabilità;
    • test statistici basati su distribuzioni note;
    • descrizione robusta di dati sperimentali.

    Un intervallo di tolleranza, per esempio, è legato all’idea di coprire una frazione specificata della popolazione con un certo livello di confidenza.

    9. Errori comuni

    Il primo errore è confondere quantile e probabilità. Il quantile è un valore della variabile, non una probabilità.

    Il secondo errore è stimare quantili estremi da campioni piccoli. Il 99-esimo percentile richiede molti dati per essere stabile; con poche osservazioni dipende quasi interamente dai valori massimi osservati.

    Il terzo errore è non dichiarare la convenzione di quantile campionario. In contesti regolatori, qualità o validazione, la definizione usata dal software può diventare rilevante.

    10. Lettura operativa

    Il quantile traduce una distribuzione in una soglia decisionale. Se la media risponde alla domanda “quanto vale in media?”, il quantile risponde a “quanto alto, o quanto basso, devo aspettarmi che sia il fenomeno in una certa percentuale dei casi?”. Per progettazione, controllo qualità e rischio, questa seconda domanda è spesso quella decisiva.

    Ultimo aggiornamento: