Intervallo di predizione — ingegnerismo.it

Un intervallo di predizione è un intervallo costruito per contenere una futura osservazione, non soltanto un parametro o una media. Risponde a una domanda pratica: dato ciò che è stato osservato finora, entro quali limiti è ragionevole attendersi la prossima misura, il prossimo errore, il prossimo consumo, il prossimo carico o la prossima prestazione?

Per questo è più ampio di un intervallo di confidenza sulla media. Un intervallo di confidenza descrive l’incertezza su una quantità media o su un parametro; un intervallo di predizione deve includere sia l’incertezza nella stima del valore medio sia la variabilità individuale della nuova osservazione. Anche se la media fosse nota con grande precisione, una singola osservazione futura potrebbe comunque discostarsene.

Caso normale elementare

Se $X_1,\ldots,X_n$ sono osservazioni indipendenti da una popolazione normale con media ignota $\mu$ e varianza ignota $\sigma^2$ , un intervallo di predizione bilaterale per una nuova osservazione $X_{n+1}$ ha la forma:

\bar X \pm t_{1-\alpha/2,n-1}\, S\sqrt{1+\dfrac{1}{n}}.

Qui $\bar X$ è la media campionaria, $S$ è la deviazione standard campionaria, $t_{1-\alpha/2,n-1}$ è il quantile della distribuzione t di Student con $n-1$ gradi di libertà e $\alpha$ è il livello di probabilità lasciato fuori dall’intervallo. Il termine $1/n$ rappresenta l’incertezza sulla stima della media; il termine $1$ rappresenta la variabilità propria della nuova osservazione. È proprio questo $1$ a rendere l’intervallo di predizione più largo dell’intervallo di confidenza sulla media.

Se la varianza fosse nota e la distribuzione normale, la struttura sarebbe analoga ma con quantile normale e $\sigma$ al posto di $S$ . Nella pratica, però, la varianza è quasi sempre stimata e la t di Student tiene conto di questa incertezza aggiuntiva.

Regressione

In regressione lineare l’intervallo di predizione dipende anche dal punto $x_0$ in cui si vuole prevedere la nuova risposta. Per un modello lineare con errori normali, una forma tipica è:

\hat y(x_0) \pm t_{1-\alpha/2,n-p}\, \hat\sigma \sqrt{ 1+x_0^\mathsf T(X^\mathsf T X)^{-1}x_0 }.

Il termine sotto radice contiene ancora un $1$ , dovuto alla variabilità della nuova risposta, più un contributo che misura l’incertezza nella stima della risposta media in $x_0$ . L’intervallo si allarga quando $x_0$ è lontano dalla regione dei dati osservati, perché il modello sta extrapolando o lavorando in una zona meno informata.

Uso ingegneristico

Gli intervalli di predizione sono usati in controllo qualità, affidabilità, diagnostica, taratura, manutenzione predittiva, previsione di domanda e analisi di prestazioni. Sono più vicini alle decisioni operative degli intervalli sulla media: un progettista spesso non vuole sapere soltanto il consumo medio atteso, ma anche quanto potrebbe consumare il prossimo componente; non solo la resistenza media di un lotto, ma l’intervallo plausibile per un pezzo futuro.

In controllo qualità un intervallo di predizione può aiutare a distinguere una variabilità attesa da un’anomalia. In affidabilità può delimitare tempi di guasto futuri, purché il modello probabilistico sia coerente con la fisica del fenomeno. Nella validazione di modelli numerici permette di confrontare misure sperimentali future con la fascia di incertezza prevista dal modello.

Differenza da intervalli vicini

L’intervallo di confidenza per la media, l’intervallo di tolleranza e l’intervallo di predizione rispondono a domande diverse. Il primo riguarda un parametro medio; il secondo mira a coprire una certa proporzione della popolazione con un certo livello di confidenza; il terzo riguarda una o più osservazioni future. Confonderli porta a decisioni troppo ottimistiche, specialmente quando la variabilità individuale è grande.

Un intervallo di predizione al 95% non garantisce che il 95% di tutte le osservazioni future cada sempre dentro la fascia in ogni serie di utilizzi. La sua interpretazione è legata alla procedura ripetuta e alle ipotesi del modello: se il modello è sbagliato, se gli errori non sono indipendenti o se la varianza cambia nel tempo, la copertura nominale può essere lontana da quella reale.

Errori comuni

Il primo errore è usare un intervallo di confidenza sulla media come se fosse un intervallo di predizione. Il risultato è una fascia troppo stretta e quindi una sottostima del rischio operativo. Il secondo errore è ignorare l’extrapolazione: in regressione, previsioni fuori dal dominio osservato possono avere incertezza molto più grande di quanto suggerisca il semplice errore medio.

Il terzo errore è costruire l’intervallo senza controllare residui, eteroschedasticità e dipendenze temporali. Se la variabilità cresce con il livello della risposta o se i dati sono autocorrelati, la formula standard può essere inadatta. In questi casi servono trasformazioni, modelli con varianza non costante, bootstrap, modelli di serie storiche o metodi predittivi calibrati.

Un intervallo di predizione è quindi uno strumento di previsione probabilistica, non una fascia decorativa intorno a una stima puntuale. La sua utilità dipende dalla coerenza tra modello statistico, processo fisico e decisione da prendere.