Funzione di perdita — ingegnerismo.it

Una funzione di perdita (loss function) assegna un costo numerico all’errore commesso da un modello. In apprendimento supervisionato, confronta la previsione $\hat y$ con il valore osservato $y$ e produce la quantità da minimizzare durante l’addestramento.

Per un dataset $\{(x_i,y_i)\}_{i=1}^{n}$ e un modello $f_\theta$ , il problema tipico è

\min_{\theta} \dfrac{1}{n}\sum_{i=1}^{n} \ell\left(f_\theta(x_i),y_i\right),

dove $\ell$ è la perdita su un singolo esempio.

Esempi fondamentali

Problema	Loss	Formula
Regressione	quadratica	$\displaystyle \ell(\hat y,y)=(\hat y-y)^2$
Regressione robusta	assoluta	$\displaystyle \ell(\hat y,y)=
Classificazione binaria	cross-entropy	$\displaystyle \ell(\hat p,y)=-y\log \hat p-(1-y)\log(1-\hat p)$
Classificazione multiclasse	cross-entropy categoriale	$\displaystyle \ell(\hat{\mathbf p},y)=-\log \hat p_y$
Regressione quantile	pinball loss	$\displaystyle \ell_\tau(u)=u(\tau-\mathbf{1}_{u<0})$

La scelta della loss determina che cosa il modello considera grave: la loss quadratica amplifica gli errori grandi, la loss assoluta è più robusta agli outlier, la cross-entropy penalizza molto le probabilità assegnate con sicurezza alla classe sbagliata.

Loss empirica e rischio

La loss media sul campione di addestramento è il rischio empirico:

\widehat R(\theta) = \dfrac{1}{n}\sum_{i=1}^{n} \ell\left(f_\theta(x_i),y_i\right).

L’obiettivo reale, però, è minimizzare il rischio atteso su dati futuri:

R(\theta) = \mathbb{E}\left[ \ell\left(f_\theta(X),Y\right) \right].

La differenza tra questi due obiettivi spiega perché una loss molto bassa sul training set non garantisce buona generalizzazione.

Regolarizzazione

Spesso la funzione obiettivo aggiunge alla loss un termine di penalizzazione sui parametri:

\min_\theta \widehat R(\theta)+\lambda\Omega(\theta).

Nel lasso, per esempio, $\Omega(\theta)=\|\theta\|_1$ favorisce soluzioni sparse. La regolarizzazione modifica il compromesso tra adattamento ai dati e complessità del modello, collegandosi al bias-variance tradeoff.

Errori comuni

Confondere loss e metrica di valutazione: una loss serve ad addestrare, una metrica serve a giudicare il modello nel contesto operativo.
Usare una loss quadratica quando gli outlier dominano il fenomeno.
Ottimizzare una loss comoda matematicamente ma incoerente con il costo reale degli errori.
Valutare la loss solo sui dati di addestramento, ignorando validazione e test.

Vedi anche: errore quadratico medio, metriche di valutazione ML, regressione lineare, regressione logistica, regressione quantile.