Mappa di feature — ingegnerismo.it

Una mappa di feature è una trasformazione che associa a ogni dato originale una rappresentazione in uno spazio di feature:

\Phi:\mathcal X\to\mathcal F, \qquad x\mapsto \Phi(x).

L’obiettivo è rendere più semplice una struttura che nello spazio originale può essere non lineare. Un modello lineare in $\mathcal F$ può infatti corrispondere a un modello non lineare nello spazio dei dati.

Schema concettuale

Livello	Oggetto	Ruolo
Dato originale	$\displaystyle x\in\mathcal X$	Osservazione nello spazio misurato.
Mappa di feature	$\displaystyle \Phi:\mathcal X\to\mathcal F$	Trasforma il dato in una nuova rappresentazione.
Feature trasformate	$\displaystyle \Phi(x)\in\mathcal F$	Coordinate esplicite o implicite usate dal modello.
Prodotto scalare	$\displaystyle \langle\Phi(x),\Phi(y)\rangle_{\mathcal F}$	Misura geometria e similarità nello spazio feature.
Kernel associato	$\displaystyle K(x,y)=\langle\Phi(x),\Phi(y)\rangle_{\mathcal F}$	Evita di costruire le feature quando basta il prodotto scalare.

La mappa può essere scritta esplicitamente, come in una trasformazione polinomiale, oppure restare implicita, come nei metodi kernel.

Esempio polinomiale

Per dati bidimensionali $x=(x_1,x_2)$ , una mappa polinomiale di grado 2 può essere

\Phi(x)= \left( 1,\sqrt{2}x_1,\sqrt{2}x_2,x_1^2,\sqrt{2}x_1x_2,x_2^2 \right).

Il prodotto scalare tra feature è

\langle\Phi(x),\Phi(y)\rangle = (1+x^T y)^2.

Quindi il kernel polinomiale

K(x,y)=(1+x^T y)^2

calcola direttamente il prodotto scalare nello spazio trasformato.

Passaggio	Formula	Interpretazione
Punto originale	$\displaystyle x=(x_1,x_2)$	Due variabili misurate.
Feature esplicite	$\displaystyle \Phi(x)\in\mathbb R^6$	Intercetta, termini lineari e termini quadratici.
Prodotto scalare	$\displaystyle \langle\Phi(x),\Phi(y)\rangle$	Geometria nello spazio trasformato.
Kernel equivalente	$\displaystyle K(x,y)=(1+x^T y)^2$	Calcolo diretto senza elencare tutte le feature.

Mappe esplicite e implicite

Tipo	Formula tipica	Uso
Lineare	$\displaystyle \Phi(x)=x$	Modelli lineari nello spazio originale.
Polinomiale esplicita	$\displaystyle \Phi(x)=(1,x_1,x_2,x_1x_2,\ldots)$	Interazioni e curvature controllate.
Random Fourier features	$\displaystyle \Phi(x)\in\mathbb R^m$	Approssima kernel stazionari con feature finite.
Kernel implicito	$\displaystyle K(x,y)=\langle\Phi(x),\Phi(y)\rangle$	Usa solo prodotti scalari nello spazio feature.
RKHS canonico	$\displaystyle \Phi(x)=K_x$	Punto visto come funzione in uno spazio di Hilbert.

La differenza pratica è computazionale: una mappa esplicita produce coordinate da memorizzare, mentre una mappa implicita viene usata attraverso una matrice di Gram.

Collegamento con i kernel

Se una mappa di feature è nota, allora

K(x,y)=\langle\Phi(x),\Phi(y)\rangle_{\mathcal F}

è automaticamente un kernel positivo semidefinito. Infatti, per punti $x_1,\ldots,x_n$ ,

G_{ij}=K(x_i,x_j) = \langle\Phi(x_i),\Phi(x_j)\rangle_{\mathcal F}

è una matrice di Gram.

Il ragionamento inverso è quello usato negli spazi di Hilbert a kernel riproducente: un kernel positivo-definito induce uno spazio di feature, anche quando non lo si costruisce in coordinate finite.

Differenza da selezione delle feature

Concetto	Che cosa fa	Esempio
Selezione delle feature	Sceglie alcune variabili già disponibili	Tenere pressione e temperatura, scartare una misura ridondante.
Mappa di feature	Crea una nuova rappresentazione	Aggiungere $\displaystyle x_1x_2$ o usare $\displaystyle \Phi(x)$ in uno spazio RKHS.
Estrazione di feature	Costruisce descrittori da dati grezzi	Ricavare componenti spettrali da un segnale.
Kernel trick	Evita di scrivere $\displaystyle \Phi$ esplicitamente	Sostituire $\displaystyle \langle\Phi(x),\Phi(y)\rangle$ con $\displaystyle K(x,y)$ .

Questi passaggi possono coesistere, ma rispondono a domande diverse: scegliere variabili, costruire rappresentazioni o calcolare implicitamente prodotti scalari.

Schema operativo

Passo	Azione	Controllo
1	Identificare la struttura non lineare da rappresentare	Curvature, interazioni o similarità locali.
2	Scegliere $\displaystyle \Phi$ o un kernel $\displaystyle K$	La geometria indotta deve essere adatta al problema.
3	Verificare il costo della rappresentazione	Feature esplicite grandi possono essere onerose.
4	Costruire modello o matrice di Gram	Si lavora con $\displaystyle \Phi(x)$ oppure con $\displaystyle K(x,y)$ .
5	Validare la generalizzazione	Una mappa troppo ricca può favorire overfitting.

Errori comuni

Confondere mappa di feature e selezione delle feature: la prima trasforma la rappresentazione, la seconda sceglie variabili esistenti.
Pensare che lo spazio feature sia sempre visibile: nei metodi kernel può essere solo implicito.
Aggiungere feature senza regolarizzazione: una rappresentazione più ricca aumenta anche il rischio di sovra-adattamento.
Ignorare scale e unità di misura: prodotti scalari e distanze nello spazio feature dipendono dal preprocessing.
Credere che ogni trasformazione generi un kernel valido: per usare il kernel trick serve coerenza con un prodotto scalare positivo semidefinito.

Vedi anche: kernel trick, Random Fourier features, matrice di Gram, Kernel PCA, spazio di Hilbert a kernel riproducente, selezione delle feature.