Funzione di perdita

Indice dei contenuti

    Una funzione di perdita (loss function) assegna un costo numerico all’errore commesso da un modello. In apprendimento supervisionato, confronta la previsione \hat y con il valore osservato y e produce la quantità da minimizzare durante l’addestramento.

    Per un dataset \{(x_i,y_i)\}_{i=1}^{n} e un modello f_\theta, il problema tipico è

    \min_{\theta} \dfrac{1}{n}\sum_{i=1}^{n} \ell\left(f_\theta(x_i),y_i\right),

    dove \ell è la perdita su un singolo esempio.

    Esempi fondamentali

    ProblemaLossFormula
    Regressionequadratica\displaystyle \ell(\hat y,y)=(\hat y-y)^2
    Regressione robustaassoluta$\displaystyle \ell(\hat y,y)=
    Classificazione binariacross-entropy\displaystyle \ell(\hat p,y)=-y\log \hat p-(1-y)\log(1-\hat p)
    Classificazione multiclassecross-entropy categoriale\displaystyle \ell(\hat{\mathbf p},y)=-\log \hat p_y
    Regressione quantilepinball loss\displaystyle \ell_\tau(u)=u(\tau-\mathbf{1}_{u<0})

    La scelta della loss determina che cosa il modello considera grave: la loss quadratica amplifica gli errori grandi, la loss assoluta è più robusta agli outlier, la cross-entropy penalizza molto le probabilità assegnate con sicurezza alla classe sbagliata.

    Loss empirica e rischio

    La loss media sul campione di addestramento è il rischio empirico:

    \widehat R(\theta) = \dfrac{1}{n}\sum_{i=1}^{n} \ell\left(f_\theta(x_i),y_i\right).

    L’obiettivo reale, però, è minimizzare il rischio atteso su dati futuri:

    R(\theta) = \mathbb{E}\left[ \ell\left(f_\theta(X),Y\right) \right].

    La differenza tra questi due obiettivi spiega perché una loss molto bassa sul training set non garantisce buona generalizzazione.

    Regolarizzazione

    Spesso la funzione obiettivo aggiunge alla loss un termine di penalizzazione sui parametri:

    \min_\theta \widehat R(\theta)+\lambda\Omega(\theta).

    Nel lasso, per esempio, \Omega(\theta)=\|\theta\|_1 favorisce soluzioni sparse. La regolarizzazione modifica il compromesso tra adattamento ai dati e complessità del modello, collegandosi al bias-variance tradeoff.

    Errori comuni

    • Confondere loss e metrica di valutazione: una loss serve ad addestrare, una metrica serve a giudicare il modello nel contesto operativo.
    • Usare una loss quadratica quando gli outlier dominano il fenomeno.
    • Ottimizzare una loss comoda matematicamente ma incoerente con il costo reale degli errori.
    • Valutare la loss solo sui dati di addestramento, ignorando validazione e test.

    Vedi anche: errore quadratico medio, metriche di valutazione ML, regressione lineare, regressione logistica, regressione quantile.

    Ultimo aggiornamento: