Matrice Hessiana

Indice dei contenuti

    La matrice Hessiana, o semplicemente Hessiana, è la matrice delle derivate seconde di una funzione scalare di più variabili. Se il gradiente descrive la pendenza locale, l’Hessiana descrive come quella pendenza cambia: è quindi lo strumento naturale per studiare curvatura, minimi, massimi, punti di sella e metodi di ottimizzazione.

    Per una funzione:

    f:\mathbb{R}^n\to\mathbb{R}

    sufficientemente regolare, l’Hessiana nel punto x è:

    H_f(x)= \left( \dfrac{\partial^2 f}{\partial x_i\,\partial x_j}(x) \right)_{i,j=1}^{n}

    È una matrice quadrata n\times n. L’elemento in riga i e colonna j misura come cambia la derivata parziale rispetto a x_i quando si varia x_j.

    1. Esempio in due variabili

    Per una funzione f(x,y), l’Hessiana è:

    H_f(x,y)= \begin{pmatrix} f_{xx}(x,y) & f_{xy}(x,y)\\ f_{yx}(x,y) & f_{yy}(x,y) \end{pmatrix}

    dove:

    f_{xy}= \dfrac{\partial}{\partial y} \left( \dfrac{\partial f}{\partial x} \right)

    e analogamente per le altre derivate seconde. Se le derivate seconde miste sono continue in un intorno del punto, il teorema di Schwarz garantisce:

    f_{xy}=f_{yx}

    In questo caso l’Hessiana è simmetrica. La simmetria è importante perché consente di usare autovalori reali, forme quadratiche e criteri di definitezza.

    2. Interpretazione tramite Taylor

    Il ruolo dell’Hessiana appare nella formula di Taylor in più variabili. Per un incremento piccolo h attorno a un punto x_0:

    f(x_0+h) = f(x_0) +\nabla f(x_0)^T h +\dfrac{1}{2}h^T H_f(x_0)h +o(\lVert h\rVert^2)

    Il termine lineare usa il gradiente e descrive la prima variazione. Il termine quadratico usa l’Hessiana e descrive la curvatura locale. Se x_0 è un punto critico, cioè:

    \nabla f(x_0)=0

    il termine lineare scompare e il comportamento locale dipende, al primo ordine non nullo, dalla forma quadratica:

    h^T H_f(x_0)h

    Questa è la ragione per cui l’Hessiana è centrale nella classificazione di minimi, massimi e selle.

    3. Curvatura direzionale

    L’Hessiana misura la seconda variazione di f lungo ogni direzione. Se si considera la retta:

    \gamma(t)=x_0+th

    la derivata seconda della funzione composta è:

    \dfrac{d^2}{dt^2}f(x_0+th)\bigg|_{t=0} = h^T H_f(x_0)h

    Questa quantità è la curvatura nella direzione h. Se è positiva, muovendosi in quella direzione la funzione curva verso l’alto; se è negativa, curva verso il basso. Se cambia segno a seconda della direzione, il punto ha natura di sella.

    Il collegamento con la derivata direzionale è quindi diretto: la derivata prima misura variazione lineare lungo una direzione, la seconda derivata direzionale misura curvatura lungo quella stessa direzione.

    4. Forma quadratica associata

    In un punto fissato, l’Hessiana definisce una forma quadratica:

    Q(h)=h^T H_f(x_0)h

    Il segno di Q(h) per tutte le direzioni h determina la natura locale del punto critico.

    Segno della forma quadraticaInterpretazione
    Q(h)\gt0 per ogni h\ne0curvatura positiva in ogni direzione
    Q(h)\lt0 per ogni h\ne0curvatura negativa in ogni direzione
    Q(h) assume segni diversicurvatura positiva in alcune direzioni e negativa in altre
    Q(h)\ge0 o Q(h)\le0 ma si annulla in direzioni non nulletest non conclusivo

    Questa lettura è più robusta del guardare solo le derivate seconde pure f_{xx}, f_{yy} e così via. I termini misti possono cambiare completamente il segno della forma quadratica.

    5. Classificazione dei punti critici

    Se \nabla f(x_0)=0, si usa l’Hessiana per classificare il punto.

    Hessiana in x_0Conclusione
    definita positivaminimo locale stretto
    definita negativamassimo locale stretto
    indefinitapunto di sella
    semidefinita positiva o negativatest del secondo ordine non conclusivo

    La parola “stretto” significa che, in un intorno del punto, i valori vicini sono rispettivamente maggiori o minori del valore nel punto, escluso il punto stesso. Se l’Hessiana è semidefinita, il termine quadratico può annullarsi lungo alcune direzioni e bisogna analizzare termini di ordine superiore o usare altri argomenti.

    6. Test in due variabili

    Per funzioni di due variabili, si usa spesso il determinante dell’Hessiana:

    D=f_{xx}f_{yy}-f_{xy}^2

    nel punto critico. Il criterio operativo è:

    CondizioneTipo di punto
    D\gt0 e f_{xx}\gt0minimo locale
    D\gt0 e f_{xx}\lt0massimo locale
    D\lt0punto di sella
    D=0test non conclusivo

    Questo criterio è la versione bidimensionale del test di definitezza. Infatti D è il determinante della matrice Hessiana e f_{xx} è il primo minore principale.

    7. Autovalori e criterio di Sylvester

    Per dimensioni maggiori, l’Hessiana si analizza con gli autovalori o con il criterio di Sylvester. Se l’Hessiana è reale simmetrica, tutti gli autovalori sono reali e la forma quadratica può essere letta nelle direzioni degli autovettori.

    Indicando gli autovalori con \lambda_1,\ldots,\lambda_n:

    Autovalori di H_f(x_0)Interpretazione
    tutti positiviHessiana definita positiva
    tutti negativiHessiana definita negativa
    positivi e negativiHessiana indefinita
    alcuni nulli, nessun cambio di segnosemidefinita, test non conclusivo

    Il criterio di Sylvester evita di calcolare gli autovalori: per una matrice simmetrica, la definitezza positiva equivale alla positività di tutti i minori principali guida.

    8. Hessiana e convessità

    Su un dominio convesso, se f è due volte differenziabile e:

    H_f(x)\succeq0 \quad\text{per ogni }x

    allora f è convessa. Se:

    H_f(x)\succ0

    in un intorno, la funzione ha curvatura positiva in ogni direzione in quell’intorno, anche se la sola positività locale non basta sempre a garantire proprietà globali senza ipotesi sul dominio e sulla funzione.

    Questa lettura è fondamentale in ottimizzazione: una funzione convessa non ha minimi locali “falsi”; ogni minimo locale è anche globale. Nei problemi non convessi, invece, l’Hessiana può cambiare segno e compaiono selle, massimi locali e minimi locali multipli.

    9. Metodo di Newton

    Il metodo di Newton per l’ottimizzazione usa l’Hessiana per costruire un modello quadratico locale. Dato un punto x_k, si cerca un passo p_k risolvendo:

    H_f(x_k)p_k=-\nabla f(x_k)

    e si aggiorna:

    x_{k+1}=x_k+p_k

    Se l’Hessiana è definita positiva e il punto iniziale è vicino a un minimo regolare, Newton può convergere molto rapidamente. Se l’Hessiana è indefinita, singolare o mal condizionata, il passo può puntare verso una sella o una direzione di massimo. Per questo in pratica si usano smorzamento, line search, trust region o approssimazioni quasi-Newton.

    10. Applicazioni

    L’Hessiana compare in molti contesti:

    AmbitoUso
    studio di funzioneclassificare punti critici in più variabili
    ottimizzazione numericacostruire passi di Newton e modelli quadratici
    machine learninganalizzare curvatura della loss e punti di sella
    statisticaapprossimare verosimiglianze e covarianze asintotiche
    meccanicalinearizzare energia potenziale attorno a equilibri
    economiastudiare concavità di utilità, costi e funzioni di produzione

    Nelle applicazioni ingegneristiche l’Hessiana è spesso troppo grande per essere formata esplicitamente. Si usano allora prodotti Hessiana-vettore, approssimazioni sparse, quasi-Newton o metodi del gradiente che sfruttano solo informazione del primo ordine.

    11. Errori comuni

    Un errore frequente è concludere che f_{xx}\gt0 e f_{yy}\gt0 bastino per avere un minimo. Non basta: i termini misti possono rendere l’Hessiana indefinita.

    Altri errori tipici sono:

    ErroreCorrezione
    Applicare il test dell’Hessiana fuori da un punto criticoPrima verificare \nabla f(x_0)=0
    Confondere semidefinita con minimo garantitoAnalizzare termini di ordine superiore o altre proprietà
    Dimenticare la simmetria richiede ipotesi di regolaritàUsare il teorema di Schwarz solo quando le derivate miste sono continue
    Guardare solo la diagonaleValutare autovalori, minori principali o forma quadratica completa
    Usare Newton senza controllare l’HessianaVerificare definitezza, condizionamento e strategia di passo
    Dedurre convessità globale da un controllo locale isolatoControllare l’Hessiana sull’intero dominio rilevante

    La matrice Hessiana è quindi la versione multivariabile della “seconda derivata”: non misura solo se una curva piega verso l’alto o verso il basso, ma come una superficie curva in tutte le direzioni possibili.

    Vedi anche: gradiente, derivata parziale, derivata di ordine superiore, formula di Taylor in più variabili, forma quadratica, matrice definita positiva, criterio di Sylvester, punto critico e studio di funzione.

    Ultimo aggiornamento: