La matrice Hessiana, o semplicemente Hessiana, è la matrice delle derivate seconde di una funzione scalare di più variabili. Se il gradiente descrive la pendenza locale, l’Hessiana descrive come quella pendenza cambia: è quindi lo strumento naturale per studiare curvatura, minimi, massimi, punti di sella e metodi di ottimizzazione.
Per una funzione:
sufficientemente regolare, l’Hessiana nel punto x è:
È una matrice quadrata n\times n. L’elemento in riga i e colonna j misura come cambia la derivata parziale rispetto a x_i quando si varia x_j.
1. Esempio in due variabili
Per una funzione f(x,y), l’Hessiana è:
dove:
e analogamente per le altre derivate seconde. Se le derivate seconde miste sono continue in un intorno del punto, il teorema di Schwarz garantisce:
In questo caso l’Hessiana è simmetrica. La simmetria è importante perché consente di usare autovalori reali, forme quadratiche e criteri di definitezza.
2. Interpretazione tramite Taylor
Il ruolo dell’Hessiana appare nella formula di Taylor in più variabili. Per un incremento piccolo h attorno a un punto x_0:
Il termine lineare usa il gradiente e descrive la prima variazione. Il termine quadratico usa l’Hessiana e descrive la curvatura locale. Se x_0 è un punto critico, cioè:
il termine lineare scompare e il comportamento locale dipende, al primo ordine non nullo, dalla forma quadratica:
Questa è la ragione per cui l’Hessiana è centrale nella classificazione di minimi, massimi e selle.
3. Curvatura direzionale
L’Hessiana misura la seconda variazione di f lungo ogni direzione. Se si considera la retta:
la derivata seconda della funzione composta è:
Questa quantità è la curvatura nella direzione h. Se è positiva, muovendosi in quella direzione la funzione curva verso l’alto; se è negativa, curva verso il basso. Se cambia segno a seconda della direzione, il punto ha natura di sella.
Il collegamento con la derivata direzionale è quindi diretto: la derivata prima misura variazione lineare lungo una direzione, la seconda derivata direzionale misura curvatura lungo quella stessa direzione.
4. Forma quadratica associata
In un punto fissato, l’Hessiana definisce una forma quadratica:
Il segno di Q(h) per tutte le direzioni h determina la natura locale del punto critico.
| Segno della forma quadratica | Interpretazione |
|---|---|
| Q(h)\gt0 per ogni h\ne0 | curvatura positiva in ogni direzione |
| Q(h)\lt0 per ogni h\ne0 | curvatura negativa in ogni direzione |
| Q(h) assume segni diversi | curvatura positiva in alcune direzioni e negativa in altre |
| Q(h)\ge0 o Q(h)\le0 ma si annulla in direzioni non nulle | test non conclusivo |
Questa lettura è più robusta del guardare solo le derivate seconde pure f_{xx}, f_{yy} e così via. I termini misti possono cambiare completamente il segno della forma quadratica.
5. Classificazione dei punti critici
Se \nabla f(x_0)=0, si usa l’Hessiana per classificare il punto.
| Hessiana in x_0 | Conclusione |
|---|---|
| definita positiva | minimo locale stretto |
| definita negativa | massimo locale stretto |
| indefinita | punto di sella |
| semidefinita positiva o negativa | test del secondo ordine non conclusivo |
La parola “stretto” significa che, in un intorno del punto, i valori vicini sono rispettivamente maggiori o minori del valore nel punto, escluso il punto stesso. Se l’Hessiana è semidefinita, il termine quadratico può annullarsi lungo alcune direzioni e bisogna analizzare termini di ordine superiore o usare altri argomenti.
6. Test in due variabili
Per funzioni di due variabili, si usa spesso il determinante dell’Hessiana:
nel punto critico. Il criterio operativo è:
| Condizione | Tipo di punto |
|---|---|
| D\gt0 e f_{xx}\gt0 | minimo locale |
| D\gt0 e f_{xx}\lt0 | massimo locale |
| D\lt0 | punto di sella |
| D=0 | test non conclusivo |
Questo criterio è la versione bidimensionale del test di definitezza. Infatti D è il determinante della matrice Hessiana e f_{xx} è il primo minore principale.
7. Autovalori e criterio di Sylvester
Per dimensioni maggiori, l’Hessiana si analizza con gli autovalori o con il criterio di Sylvester. Se l’Hessiana è reale simmetrica, tutti gli autovalori sono reali e la forma quadratica può essere letta nelle direzioni degli autovettori.
Indicando gli autovalori con \lambda_1,\ldots,\lambda_n:
| Autovalori di H_f(x_0) | Interpretazione |
|---|---|
| tutti positivi | Hessiana definita positiva |
| tutti negativi | Hessiana definita negativa |
| positivi e negativi | Hessiana indefinita |
| alcuni nulli, nessun cambio di segno | semidefinita, test non conclusivo |
Il criterio di Sylvester evita di calcolare gli autovalori: per una matrice simmetrica, la definitezza positiva equivale alla positività di tutti i minori principali guida.
8. Hessiana e convessità
Su un dominio convesso, se f è due volte differenziabile e:
allora f è convessa. Se:
in un intorno, la funzione ha curvatura positiva in ogni direzione in quell’intorno, anche se la sola positività locale non basta sempre a garantire proprietà globali senza ipotesi sul dominio e sulla funzione.
Questa lettura è fondamentale in ottimizzazione: una funzione convessa non ha minimi locali “falsi”; ogni minimo locale è anche globale. Nei problemi non convessi, invece, l’Hessiana può cambiare segno e compaiono selle, massimi locali e minimi locali multipli.
9. Metodo di Newton
Il metodo di Newton per l’ottimizzazione usa l’Hessiana per costruire un modello quadratico locale. Dato un punto x_k, si cerca un passo p_k risolvendo:
e si aggiorna:
Se l’Hessiana è definita positiva e il punto iniziale è vicino a un minimo regolare, Newton può convergere molto rapidamente. Se l’Hessiana è indefinita, singolare o mal condizionata, il passo può puntare verso una sella o una direzione di massimo. Per questo in pratica si usano smorzamento, line search, trust region o approssimazioni quasi-Newton.
10. Applicazioni
L’Hessiana compare in molti contesti:
| Ambito | Uso |
|---|---|
| studio di funzione | classificare punti critici in più variabili |
| ottimizzazione numerica | costruire passi di Newton e modelli quadratici |
| machine learning | analizzare curvatura della loss e punti di sella |
| statistica | approssimare verosimiglianze e covarianze asintotiche |
| meccanica | linearizzare energia potenziale attorno a equilibri |
| economia | studiare concavità di utilità, costi e funzioni di produzione |
Nelle applicazioni ingegneristiche l’Hessiana è spesso troppo grande per essere formata esplicitamente. Si usano allora prodotti Hessiana-vettore, approssimazioni sparse, quasi-Newton o metodi del gradiente che sfruttano solo informazione del primo ordine.
11. Errori comuni
Un errore frequente è concludere che f_{xx}\gt0 e f_{yy}\gt0 bastino per avere un minimo. Non basta: i termini misti possono rendere l’Hessiana indefinita.
Altri errori tipici sono:
| Errore | Correzione |
|---|---|
| Applicare il test dell’Hessiana fuori da un punto critico | Prima verificare \nabla f(x_0)=0 |
| Confondere semidefinita con minimo garantito | Analizzare termini di ordine superiore o altre proprietà |
| Dimenticare la simmetria richiede ipotesi di regolarità | Usare il teorema di Schwarz solo quando le derivate miste sono continue |
| Guardare solo la diagonale | Valutare autovalori, minori principali o forma quadratica completa |
| Usare Newton senza controllare l’Hessiana | Verificare definitezza, condizionamento e strategia di passo |
| Dedurre convessità globale da un controllo locale isolato | Controllare l’Hessiana sull’intero dominio rilevante |
La matrice Hessiana è quindi la versione multivariabile della “seconda derivata”: non misura solo se una curva piega verso l’alto o verso il basso, ma come una superficie curva in tutte le direzioni possibili.
Vedi anche: gradiente, derivata parziale, derivata di ordine superiore, formula di Taylor in più variabili, forma quadratica, matrice definita positiva, criterio di Sylvester, punto critico e studio di funzione.