AUC — ingegnerismo.it

L’AUC è l’area sotto una curva di valutazione. Nel caso più comune, ROC-AUC misura l’area sotto la curva ROC di un classificatore binario.

Interpretazione probabilistica: è la probabilità che il classificatore assegni score più alto a un esempio positivo che a uno negativo, con metà peso ai pareggi.

Un’AUC pari a $0{,}5$ corrisponde a ranking casuale, mentre $1$ indica separazione perfetta. Non misura calibrazione probabilistica e può essere poco rappresentativa quando le classi sono fortemente sbilanciate.

ROC-AUC

La curva ROC mette in relazione, al variare della soglia decisionale, il tasso di veri positivi e il tasso di falsi positivi:

TPR= \dfrac{TP}{TP+FN}, \qquad FPR= \dfrac{FP}{FP+TN}.

Queste quantità derivano dalla matrice di confusione. La ROC-AUC è

AUC= \int_0^1 TPR(FPR)\,dFPR.

Un classificatore perfetto ha una curva che sale subito a $TPR=1$ mantenendo $FPR=0$ , quindi AUC pari a 1. Un classificatore casuale segue in media la diagonale $TPR=FPR$ , quindi AUC pari a $0{,}5$ .

Interpretazione come ranking

Se $s(x)$ è lo score prodotto dal modello, la ROC-AUC può essere interpretata come

AUC= P\!\left(s(X^+)>s(X^-)\right) + \dfrac{1}{2}P\!\left(s(X^+)=s(X^-)\right),

dove $X^+$ è un esempio positivo e $X^-$ un esempio negativo. Questa interpretazione è spesso più utile dell’immagine geometrica: l’AUC misura la qualità dell’ordinamento prodotto dal modello, non la bontà assoluta delle probabilità.

Per questo una trasformazione monotona degli score non cambia la ROC-AUC. Se si sostituisce uno score $s$ con $\log(s)$ , o con qualunque trasformazione strettamente crescente, l’ordine resta lo stesso e l’AUC non varia.

Relazione con la soglia

L’AUC valuta tutte le soglie possibili, ma un sistema reale opera spesso a una soglia specifica. In diagnostica, controllo qualità, sicurezza informatica o manutenzione predittiva, il costo di un falso positivo e quello di un falso negativo possono essere molto diversi.

Un modello con AUC più alta non è automaticamente migliore nel punto operativo desiderato. Se serve lavorare a bassissimo tasso di falsi positivi, va esaminata la porzione iniziale della curva ROC, non solo l’area totale.

Classi sbilanciate

La ROC-AUC può risultare ottimistica quando la classe positiva è rara. Poiché il tasso di falsi positivi normalizza per il numero totale di negativi, molti falsi allarmi in valore assoluto possono apparire piccoli in percentuale se i negativi sono numerosissimi.

In problemi molto sbilanciati conviene affiancare AUC a metriche basate su precisione, richiamo, valore predittivo positivo, costo atteso o curva precision-recall. La scelta della metrica deve seguire la domanda tecnica, non la consuetudine.

AUC e calibrazione

Un modello può avere AUC elevata e probabilità mal calibrate. Per esempio, se assegna score più alti ai positivi che ai negativi ma produce valori numerici troppo estremi, il ranking è buono ma le probabilità non sono affidabili.

La regressione logistica può produrre score interpretabili come probabilità sotto ipotesi adeguate, ma anche in quel caso la calibrazione va verificata. L’AUC non controlla se un gruppo di casi con probabilità prevista $0{,}8$ contiene davvero circa l’80% di positivi.

Confronto tra modelli

L’AUC è utile per confrontare modelli che producono score continui, come regressione logistica, alberi ensemble, random forest o gradient boosting. Il confronto deve però essere fatto su dati di test o tramite validazione incrociata, non sullo stesso campione usato per addestrare.

Differenze piccole di AUC possono essere irrilevanti dal punto di vista operativo, soprattutto se il costo computazionale, la spiegabilità o la robustezza del modello cambiano molto.

Errori comuni

Un errore frequente è dire che AUC pari a $0{,}90$ significa “90% di previsioni corrette”. Non è così: l’AUC è una probabilità di ordinamento tra una coppia positivo-negativo, non un’accuratezza a soglia fissata.

Un altro errore è usare l’AUC come unica metrica in sistemi decisionali. La valutazione completa richiede soglia operativa, costi degli errori, distribuzione delle classi, calibrazione e stabilità nel tempo. L’AUC è un ottimo riassunto del ranking, ma non esaurisce la qualità di un classificatore.