Una mappa di feature è una trasformazione che associa a ogni dato originale una rappresentazione in uno spazio di feature:
L’obiettivo è rendere più semplice una struttura che nello spazio originale può essere non lineare. Un modello lineare in \mathcal F può infatti corrispondere a un modello non lineare nello spazio dei dati.
Schema concettuale
| Livello | Oggetto | Ruolo |
|---|---|---|
| Dato originale | \displaystyle x\in\mathcal X | Osservazione nello spazio misurato. |
| Mappa di feature | \displaystyle \Phi:\mathcal X\to\mathcal F | Trasforma il dato in una nuova rappresentazione. |
| Feature trasformate | \displaystyle \Phi(x)\in\mathcal F | Coordinate esplicite o implicite usate dal modello. |
| Prodotto scalare | \displaystyle \langle\Phi(x),\Phi(y)\rangle_{\mathcal F} | Misura geometria e similarità nello spazio feature. |
| Kernel associato | \displaystyle K(x,y)=\langle\Phi(x),\Phi(y)\rangle_{\mathcal F} | Evita di costruire le feature quando basta il prodotto scalare. |
La mappa può essere scritta esplicitamente, come in una trasformazione polinomiale, oppure restare implicita, come nei metodi kernel.
Esempio polinomiale
Per dati bidimensionali x=(x_1,x_2), una mappa polinomiale di grado 2 può essere
Il prodotto scalare tra feature è
Quindi il kernel polinomiale
calcola direttamente il prodotto scalare nello spazio trasformato.
| Passaggio | Formula | Interpretazione |
|---|---|---|
| Punto originale | \displaystyle x=(x_1,x_2) | Due variabili misurate. |
| Feature esplicite | \displaystyle \Phi(x)\in\mathbb R^6 | Intercetta, termini lineari e termini quadratici. |
| Prodotto scalare | \displaystyle \langle\Phi(x),\Phi(y)\rangle | Geometria nello spazio trasformato. |
| Kernel equivalente | \displaystyle K(x,y)=(1+x^T y)^2 | Calcolo diretto senza elencare tutte le feature. |
Mappe esplicite e implicite
| Tipo | Formula tipica | Uso |
|---|---|---|
| Lineare | \displaystyle \Phi(x)=x | Modelli lineari nello spazio originale. |
| Polinomiale esplicita | \displaystyle \Phi(x)=(1,x_1,x_2,x_1x_2,\ldots) | Interazioni e curvature controllate. |
| Random Fourier features | \displaystyle \Phi(x)\in\mathbb R^m | Approssima kernel stazionari con feature finite. |
| Kernel implicito | \displaystyle K(x,y)=\langle\Phi(x),\Phi(y)\rangle | Usa solo prodotti scalari nello spazio feature. |
| RKHS canonico | \displaystyle \Phi(x)=K_x | Punto visto come funzione in uno spazio di Hilbert. |
La differenza pratica è computazionale: una mappa esplicita produce coordinate da memorizzare, mentre una mappa implicita viene usata attraverso una matrice di Gram.
Collegamento con i kernel
Se una mappa di feature è nota, allora
è automaticamente un kernel positivo semidefinito. Infatti, per punti x_1,\ldots,x_n,
è una matrice di Gram.
Il ragionamento inverso è quello usato negli spazi di Hilbert a kernel riproducente: un kernel positivo-definito induce uno spazio di feature, anche quando non lo si costruisce in coordinate finite.
Differenza da selezione delle feature
| Concetto | Che cosa fa | Esempio |
|---|---|---|
| Selezione delle feature | Sceglie alcune variabili già disponibili | Tenere pressione e temperatura, scartare una misura ridondante. |
| Mappa di feature | Crea una nuova rappresentazione | Aggiungere \displaystyle x_1x_2 o usare \displaystyle \Phi(x) in uno spazio RKHS. |
| Estrazione di feature | Costruisce descrittori da dati grezzi | Ricavare componenti spettrali da un segnale. |
| Kernel trick | Evita di scrivere \displaystyle \Phi esplicitamente | Sostituire \displaystyle \langle\Phi(x),\Phi(y)\rangle con \displaystyle K(x,y). |
Questi passaggi possono coesistere, ma rispondono a domande diverse: scegliere variabili, costruire rappresentazioni o calcolare implicitamente prodotti scalari.
Schema operativo
| Passo | Azione | Controllo |
|---|---|---|
| 1 | Identificare la struttura non lineare da rappresentare | Curvature, interazioni o similarità locali. |
| 2 | Scegliere \displaystyle \Phi o un kernel \displaystyle K | La geometria indotta deve essere adatta al problema. |
| 3 | Verificare il costo della rappresentazione | Feature esplicite grandi possono essere onerose. |
| 4 | Costruire modello o matrice di Gram | Si lavora con \displaystyle \Phi(x) oppure con \displaystyle K(x,y). |
| 5 | Validare la generalizzazione | Una mappa troppo ricca può favorire overfitting. |
Errori comuni
- Confondere mappa di feature e selezione delle feature: la prima trasforma la rappresentazione, la seconda sceglie variabili esistenti.
- Pensare che lo spazio feature sia sempre visibile: nei metodi kernel può essere solo implicito.
- Aggiungere feature senza regolarizzazione: una rappresentazione più ricca aumenta anche il rischio di sovra-adattamento.
- Ignorare scale e unità di misura: prodotti scalari e distanze nello spazio feature dipendono dal preprocessing.
- Credere che ogni trasformazione generi un kernel valido: per usare il kernel trick serve coerenza con un prodotto scalare positivo semidefinito.
Vedi anche: kernel trick, Random Fourier features, matrice di Gram, Kernel PCA, spazio di Hilbert a kernel riproducente, selezione delle feature.