Una funzione di perdita (loss function) assegna un costo numerico all’errore commesso da un modello. In apprendimento supervisionato, confronta la previsione \hat y con il valore osservato y e produce la quantità da minimizzare durante l’addestramento.
Per un dataset \{(x_i,y_i)\}_{i=1}^{n} e un modello f_\theta, il problema tipico è
dove \ell è la perdita su un singolo esempio.
Esempi fondamentali
| Problema | Loss | Formula |
|---|---|---|
| Regressione | quadratica | \displaystyle \ell(\hat y,y)=(\hat y-y)^2 |
| Regressione robusta | assoluta | $\displaystyle \ell(\hat y,y)= |
| Classificazione binaria | cross-entropy | \displaystyle \ell(\hat p,y)=-y\log \hat p-(1-y)\log(1-\hat p) |
| Classificazione multiclasse | cross-entropy categoriale | \displaystyle \ell(\hat{\mathbf p},y)=-\log \hat p_y |
| Regressione quantile | pinball loss | \displaystyle \ell_\tau(u)=u(\tau-\mathbf{1}_{u<0}) |
La scelta della loss determina che cosa il modello considera grave: la loss quadratica amplifica gli errori grandi, la loss assoluta è più robusta agli outlier, la cross-entropy penalizza molto le probabilità assegnate con sicurezza alla classe sbagliata.
Loss empirica e rischio
La loss media sul campione di addestramento è il rischio empirico:
L’obiettivo reale, però, è minimizzare il rischio atteso su dati futuri:
La differenza tra questi due obiettivi spiega perché una loss molto bassa sul training set non garantisce buona generalizzazione.
Regolarizzazione
Spesso la funzione obiettivo aggiunge alla loss un termine di penalizzazione sui parametri:
Nel lasso, per esempio, \Omega(\theta)=\|\theta\|_1 favorisce soluzioni sparse. La regolarizzazione modifica il compromesso tra adattamento ai dati e complessità del modello, collegandosi al bias-variance tradeoff.
Errori comuni
- Confondere loss e metrica di valutazione: una loss serve ad addestrare, una metrica serve a giudicare il modello nel contesto operativo.
- Usare una loss quadratica quando gli outlier dominano il fenomeno.
- Ottimizzare una loss comoda matematicamente ma incoerente con il costo reale degli errori.
- Valutare la loss solo sui dati di addestramento, ignorando validazione e test.
Vedi anche: errore quadratico medio, metriche di valutazione ML, regressione lineare, regressione logistica, regressione quantile.