Regressione quantile — ingegnerismo.it

La regressione quantile è una tecnica di regressione che stima un quantile condizionato della variabile risposta, invece della media condizionata. Mentre la regressione lineare ordinaria descrive come cambia il valore medio di $Y$ al variare dei predittori, la regressione quantile descrive come cambiano mediana, quartili, code superiori o inferiori della distribuzione condizionata.

È particolarmente utile quando l’effetto dei predittori non è uniforme lungo la distribuzione: una variabile può avere impatto modesto sui valori centrali ma molto forte sui valori estremi, oppure può ridurre la variabilità nella coda bassa senza modificare la media.

1. Modello

Per un livello $\tau\in(0,1)$ , la regressione quantile lineare assume:

Q_Y(\tau\mid x)=x^T\beta_\tau,

dove $Q_Y(\tau\mid x)$ è il quantile condizionato di ordine $\tau$ della risposta $Y$ dato il vettore di covariate $x$ . Il parametro $\beta_\tau$ dipende dal quantile scelto: la pendenza per la mediana può essere diversa dalla pendenza per il 90-esimo percentile.

Questo è il punto centrale del metodo. Non esiste un solo coefficiente di regressione: esiste una famiglia di coefficienti, uno per ciascun livello di quantile.

2. Funzione di perdita

Per stimare $\beta_\tau$ si minimizza una perdita asimmetrica, detta pinball loss o check loss:

\widehat{\beta}_\tau = \arg\min_{\beta} \sum_{i=1}^{n} \rho_\tau(y_i-x_i^T\beta),

con:

\rho_\tau(u)= u\left(\tau-\mathbf{1}_{u<0}\right).

In forma equivalente:

\rho_\tau(u)= \begin{cases} \tau u, & u\ge 0,\\ (\tau-1)u, & u<0. \end{cases}

Gli errori positivi e negativi sono penalizzati in modo diverso. Per $\tau=0{,}5$ la perdita è proporzionale al valore assoluto dell’errore e la stima corrisponde a una regressione mediana. Per $\tau=0{,}9$ , sottostimare osservazioni alte è molto più penalizzato che sovrastimarle.

3. Interpretazione dei coefficienti

Un coefficiente $\beta_{\tau,j}$ rappresenta la variazione del quantile condizionato di ordine $\tau$ associata a un incremento unitario della variabile $x_j$ , mantenendo costanti le altre covariate.

Se $\beta_{0{,}5,j}$ è piccolo ma $\beta_{0{,}9,j}$ è grande, la variabile $x_j$ ha poco effetto sulla mediana ma incide molto sulla coda alta della risposta. Questa informazione sarebbe nascosta in un modello centrato solo sulla media.

L’interpretazione richiede cautela: la regressione quantile descrive quantili condizionati, non segue automaticamente le stesse unità individuali lungo la distribuzione. Dire che un coefficiente è alto al 90-esimo percentile significa che la relazione è forte nella coda condizionata, non che gli stessi individui si spostano causalmente da un quantile all’altro.

4. Differenza dai minimi quadrati

I minimi quadrati stimano la media condizionata minimizzando:

\sum_{i=1}^{n}(y_i-x_i^T\beta)^2.

La perdita quadratica amplifica gli errori grandi e rende l’OLS sensibile a outlier e code pesanti. La regressione quantile usa invece una perdita lineare asimmetrica, quindi è più robusta rispetto a valori estremi nella risposta.

Inoltre, l’OLS richiede ipotesi sugli errori per molte inferenze classiche, per esempio omoschedasticità o normalità approssimata. La regressione quantile non richiede che gli errori abbiano varianza costante e può descrivere direttamente situazioni di eteroschedasticità.

5. Mediana condizionata

Il caso $\tau=0{,}5$ è la regressione mediana:

\widehat{\beta}_{0{,}5} = \arg\min_{\beta} \sum_{i=1}^{n} |y_i-x_i^T\beta|.

Questa stima è meno influenzata da outlier verticali rispetto alla regressione ai minimi quadrati. È adatta quando il valore centrale di interesse è la mediana, per esempio in presenza di distribuzioni asimmetriche, tempi di attesa, costi, redditi, carichi di punta o durate di vita.

6. Inferenza

La distribuzione degli stimatori di regressione quantile è meno immediata rispetto a quella OLS, perché la funzione obiettivo non è derivabile in zero. In pratica si usano:

formule asintotiche basate sulla densità dell’errore vicino al quantile;
metodi bootstrap;
intervalli di confidenza robusti;
test con correzioni per dipendenze o campionamenti complessi.

Il bootstrap e jackknife sono molto usati perché permettono di stimare incertezza senza imporre una forma parametrica rigida alla distribuzione degli errori.

7. Quantili multipli e attraversamento

Spesso si stimano più quantili, per esempio $\tau=0{,}1$ , $0{,}5$ , $0{,}9$ . In teoria i quantili condizionati devono essere ordinati:

Q_Y(0{,}1\mid x) \le Q_Y(0{,}5\mid x) \le Q_Y(0{,}9\mid x).

Stimando ogni quantile separatamente, però, può verificarsi il crossing, cioè l’attraversamento delle curve quantiliche. È un segnale che il modello lineare, il campione o la procedura di stima non sono adeguati. Si possono usare vincoli di monotonia, smoothing o modelli congiunti per quantili multipli.

8. Applicazioni ingegneristiche

La regressione quantile è utile quando interessano limiti prestazionali e scenari estremi:

tempi di latenza al 95-esimo percentile in sistemi informatici;
carichi di punta su reti, strutture o componenti;
consumo energetico in condizioni sfavorevoli;
qualità minima di un processo produttivo;
code dei tempi di manutenzione o riparazione;
valori bassi di affidabilità o rendimento.

In questi casi progettare sulla media può essere insufficiente. Un sistema può avere media accettabile ma coda alta dei ritardi incompatibile con il servizio richiesto.

9. Errori comuni

Il primo errore è leggere la regressione quantile come una regressione OLS ripetuta su sottoinsiemi di dati. Non si prendono solo le osservazioni sopra o sotto un certo percentile: si usa l’intero campione con una perdita asimmetrica.

Il secondo errore è confrontare coefficienti di quantili diversi senza considerare l’incertezza. Differenze apparenti tra $\beta_{0{,}5}$ e $\beta_{0{,}9}$ possono essere rumore campionario.

Il terzo errore è scegliere molti quantili e interpretare solo quelli più convenienti. Se l’analisi è esplorativa, va dichiarata come tale; se è inferenziale, il piano dei quantili dovrebbe essere definito prima.

10. Sintesi operativa

La regressione quantile risponde a una domanda diversa dai minimi quadrati: non “come cambia la media?”, ma “come cambia una parte specifica della distribuzione?”. È quindi uno strumento naturale quando la variabilità non è un disturbo da eliminare, ma una componente del fenomeno da modellare.

Per usarla bene occorre scegliere quantili coerenti con il problema, controllare la stabilità delle stime, visualizzare le curve quantiliche e interpretare i coefficienti come effetti sui quantili condizionati, non come garanzia causale.