Calibrazione

Indice dei contenuti

    La calibrazione di un classificatore probabilistico misura quanto le probabilità previste corrispondono alle frequenze osservate. Un modello può ordinare bene gli esempi, e quindi avere una buona curva ROC, ma assegnare probabilità sistematicamente troppo alte o troppo basse. In quel caso discrimina bene, ma non è ben calibrato.

    Idealmente, per un classificatore binario che produce una probabilità stimata \hat p, vale

    P(Y=1\mid \hat p=p)\approx p.

    Questo significa che tra tutti i casi a cui il modello assegna probabilità circa 0{,}80, circa l’80\% dovrebbe essere effettivamente positivo.

    Discriminazione e calibrazione

    Discriminazione e calibrazione rispondono a domande diverse. La discriminazione valuta se il modello assegna score più alti ai positivi che ai negativi. La calibrazione valuta se lo score probabilistico può essere interpretato come probabilità affidabile.

    Un modello può avere AUC alta ma essere mal calibrato. Per esempio, se assegna 0{,}99 a casi che si verificano solo nell’80\% delle volte, ordina magari correttamente gli esempi, ma sovrastima il rischio. Questo è critico in medicina, affidabilità, manutenzione predittiva, cybersecurity e qualunque contesto in cui la probabilità alimenta decisioni economiche o di sicurezza.

    Reliability diagram

    Uno strumento visivo è il reliability diagram. Si dividono le predizioni in intervalli, per esempio

    [0,0{,}1),[0{,}1,0{,}2),\dots,[0{,}9,1],

    e per ogni bin si confrontano la probabilità media prevista e la frequenza osservata:

    \widehat{\operatorname{freq}}_k = \dfrac{1}{n_k}\sum_{i\in B_k} y_i, \qquad \widehat p_k = \dfrac{1}{n_k}\sum_{i\in B_k} \hat p_i.

    Un modello ben calibrato produce punti vicini alla diagonale \widehat{\operatorname{freq}}_k=\widehat p_k. Deviazioni sistematiche sopra o sotto la diagonale indicano sottostima o sovrastima della probabilità.

    Brier score e log-loss

    Il Brier score per classificazione binaria è

    \operatorname{BS} = \dfrac{1}{n}\sum_{i=1}^n(\hat p_i-y_i)^2.

    Valori più bassi indicano previsioni probabilistiche migliori. A differenza dell’accuratezza, il Brier score penalizza anche probabilità non ben calibrate.

    La log-loss, o cross-entropy, è

    \operatorname{LogLoss} = -\dfrac{1}{n}\sum_{i=1}^n \left[ y_i\log \hat p_i+(1-y_i)\log(1-\hat p_i) \right].

    È una funzione di perdita severa verso predizioni molto sicure ma sbagliate. Per questo è utile quando le probabilità devono essere affidabili, non solo le classi finali.

    Metodi di ricalibrazione

    Due tecniche comuni sono Platt scaling e isotonic regression. Platt scaling applica una trasformazione logistica allo score grezzo:

    \hat p_{\mathrm{cal}}(x) = \dfrac{1}{1+\exp(As(x)+B)}.

    Isotonic regression usa invece una funzione monotona stimata dai dati, più flessibile ma più esposta a overfitting quando il campione di validazione è piccolo.

    La ricalibrazione deve essere stimata su dati separati da quelli usati per addestrare il modello. Usare gli stessi dati per addestramento e calibrazione produce stime troppo ottimistiche.

    Quando conta davvero

    La calibrazione è essenziale quando la probabilità entra in una soglia decisionale, in una stima di rischio, in un costo atteso o in un ranking economico. Se invece serve solo ordinare i casi dal più probabile al meno probabile, metriche come AUC o ranking loss possono essere più direttamente pertinenti.

    In classificazione multiclasse, la calibrazione riguarda l’intero vettore di probabilità. Non basta che la classe predetta sia spesso corretta: anche le probabilità assegnate alle classi non scelte devono essere coerenti con le frequenze osservate.

    Errori comuni

    Il primo errore è interpretare ogni output tra 0 e 1 come probabilità affidabile. Molti modelli producono score normalizzati ma non calibrati. Il secondo è calibrare sul test set, contaminando la valutazione finale. Il terzo è scegliere la soglia decisionale senza controllare se le probabilità siano sovra o sottostimate.

    Per collegare calibrazione, soglie e matrice di confusione si vedano anche le metriche di valutazione ML e gli esercizi su classificazione e metriche.

    Ultimo aggiornamento: