Principio di funzionamento della memoria SSD

Una memoria SSD (solid-state drive) è un dispositivo di archiviazione che conserva dati in celle di memoria flash NAND, senza parti meccaniche in movimento. Il principio di funzionamento è molto diverso da quello di un hard disk: non c’è una testina che legge domini magnetici su un disco rotante, ma una matrice elettronica in cui l’informazione è rappresentata da carica elettrica intrappolata in celle a semiconduttore.

La cella flash può essere vista come una variante di transistor con gate flottante o struttura charge-trap. La quantità di carica immagazzinata modifica la tensione di soglia del dispositivo. Leggendo questa soglia, il controller interpreta lo stato logico della cella.

Il punto essenziale è che un SSD non è una semplice “memoria più veloce”. È un sistema embedded completo: contiene NAND flash, controller, firmware, memoria di appoggio, codici di correzione d’errore, cache, tabelle di traduzione e algoritmi di gestione dell’usura. Il computer vede blocchi logici ordinati; dentro il dispositivo, quei blocchi vengono continuamente spostati, riscritti, corretti e rimappati.

Come una cella memorizza un bit

Una cella NAND è simile a un MOSFET, ma contiene una regione in grado di trattenere carica elettrica. Nelle tecnologie storiche questa regione è un floating gate isolato; in molte NAND moderne è una struttura charge-trap. In entrambi i casi, la carica immagazzinata cambia la tensione di soglia $V_T$ del transistor.

Se la tensione di soglia è bassa, il transistor conduce con una certa tensione di lettura; se è alta, conduce solo con tensioni maggiori. La memoria non legge direttamente “0” o “1”: misura in quale intervallo cade $V_T$ .

In forma concettuale:

\Delta V_T \propto Q_{trap}

dove $Q_{trap}$ è la carica trattenuta nella regione isolata. Programmare una cella significa inserire carica e spostare la soglia; cancellarla significa rimuovere carica e riportare la soglia verso lo stato iniziale.

La programmazione e la cancellazione avvengono con campi elettrici elevati, sfruttando fenomeni di tunneling attraverso isolanti sottilissimi. Questo rende la cella non volatile, ma introduce anche usura: ogni ciclo stressa gli ossidi e aumenta la probabilità di perdite, difetti e errori.

Celle, pagine e blocchi

La NAND flash è organizzata gerarchicamente. Le celle formano pagine, le pagine formano blocchi. Una caratteristica fondamentale è che la lettura e la programmazione avvengono a livello di pagina, mentre la cancellazione avviene a livello di blocco. Questo vincolo rende impossibile sovrascrivere liberamente un singolo byte come in una RAM.

Quando il sistema operativo modifica un file, l’SSD spesso scrive i nuovi dati in un’altra posizione e marca i vecchi come non più validi. In seguito, la garbage collection recupera blocchi contenenti molte pagine invalide, li cancella e li rende nuovamente disponibili.

La gerarchia tipica è:

Livello	Funzione	Vincolo
Cella	conserva uno o più bit	soggetta a rumore, usura e deriva della soglia
Pagina	unità minima di lettura e programmazione	non viene sovrascritta liberamente
Blocco	insieme di pagine	unità minima di cancellazione
Piano, die, canale	livelli di parallelismo interno	determinano parte delle prestazioni

Il vincolo pagina/blocco è la ragione per cui una scrittura apparentemente piccola può causare molto lavoro interno. Se il sistema vuole modificare pochi kilobyte, l’SSD può dover scrivere una nuova pagina, aggiornare la mappa logica, invalidare la vecchia pagina e, più tardi, spostare dati ancora validi prima di cancellare un blocco.

Lettura, programmazione e cancellazione

Le tre operazioni fondamentali hanno costi e rischi diversi.

Operazione	Scala tipica	Cosa accade
Lettura	pagina	il controller confronta la soglia delle celle con tensioni di riferimento
Programmazione	pagina	viene inserita carica nelle celle selezionate
Cancellazione	blocco	viene rimossa carica da tutte le celle del blocco

La lettura è relativamente rapida, ma non innocua: molte letture ripetute su celle vicine possono disturbare soglie elettriche, fenomeno noto come read disturb. La programmazione deve essere accurata perché una soglia posizionata male può invadere l’intervallo di un altro stato logico. La cancellazione è più lenta e più stressante, perché coinvolge un intero blocco.

Per posizionare correttamente le soglie, il controller usa sequenze incrementali: applica impulsi di programmazione e verifica progressivamente la risposta. Questo approccio riduce errori, ma aumenta complessità e tempo di scrittura.

Controller e FTL

Il componente più importante di un SSD moderno è il controller. Esso presenta al computer un dispositivo a blocchi apparentemente semplice, ma internamente traduce gli indirizzi logici in posizioni fisiche tramite il FTL (flash translation layer).

Il controller gestisce:

distribuzione delle scritture;
correzione d’errore;
cache;
garbage collection;
protezione da perdita di alimentazione, se supportata;
comando TRIM;
wear leveling.

Il wear leveling distribuisce le scritture su tutte le celle per evitare che alcune si consumino molto prima delle altre. Ogni cella flash sopporta infatti un numero finito di cicli programmazione-cancellazione.

Il sistema operativo invia richieste a indirizzi logici, spesso chiamati LBA. Il FTL decide dove collocare fisicamente quei dati nella NAND. La mappa può essere vista così:

LBA \rightarrow PPA

dove $PPA$ è l’indirizzo fisico nella flash. Questa traduzione permette scritture fuori posto: invece di sovrascrivere una pagina già programmata, il controller scrive i dati in una pagina libera e aggiorna la tabella. La vecchia pagina diventa invalida.

Questa scelta è necessaria, ma genera un costo nascosto: la write amplification. Si definisce:

WA = \frac{\text{dati scritti nella NAND}}{\text{dati scritti dall'host}}

Se il computer scrive 1 GB ma l’SSD, per garbage collection e spostamenti interni, scrive 1.5 GB nella NAND, la write amplification vale 1.5. Valori elevati riducono prestazioni e durata.

Garbage collection, TRIM e over-provisioning

La garbage collection libera blocchi contenenti molte pagine invalide. Prima di cancellare un blocco, però, il controller deve copiare altrove le pagine ancora valide. Questo lavoro può avvenire in background o durante le scritture dell’utente.

Il comando TRIM aiuta il controller: quando il sistema operativo elimina un file o libera blocchi logici, può comunicare all’SSD che quei dati non sono più necessari. Senza TRIM, l’SSD potrebbe considerare ancora validi dati che il file system ha già abbandonato, copiandoli inutilmente durante la garbage collection.

L’over-provisioning è capacità fisica non esposta all’utente. Serve come area di manovra per sostituire blocchi difettosi, distribuire scritture, mantenere prestazioni e ridurre write amplification. Due SSD con la stessa capacità visibile possono avere comportamento diverso se hanno quantità diverse di NAND fisica e strategie diverse di firmware.

Celle multilivello e affidabilità

Le celle SLC memorizzano un bit per cella; MLC, TLC e QLC memorizzano più bit usando più livelli di soglia. Aumentare i bit per cella migliora densità e costo, ma riduce margini elettrici, velocità e durata.

Per mantenere affidabilità, gli SSD usano codici di correzione d’errore, over-provisioning e algoritmi di gestione avanzati. L’unità sembra una memoria semplice, ma in realtà è un sistema embedded che nasconde la complessità fisica della NAND.

Il numero di stati cresce rapidamente:

Tipo	Bit per cella	Stati di soglia	Compromesso
SLC	1	2	massima robustezza, costo alto
MLC	2	4	buon compromesso storico
TLC	3	8	densità elevata, diffusa nel consumo
QLC	4	16	costo per bit basso, margini ridotti

Più stati significano intervalli di tensione più stretti. Con il tempo, la carica può disperdersi, le soglie possono spostarsi e il rumore può sovrapporre stati vicini. Il controller deve quindi usare letture con soglie adattive, codici di correzione e, talvolta, riletture multiple.

ECC, retention e disturbi

La NAND produce errori fisiologici. Non è un’anomalia: è parte del progetto. L’affidabilità nasce dal fatto che il controller prevede gli errori e li corregge.

I codici ECC, come BCH o LDPC, aggiungono ridondanza ai dati. In lettura, il controller ricostruisce il contenuto corretto entro un certo numero di bit errati. Quando gli errori si avvicinano al limite correggibile, il firmware può riscrivere i dati in celle più fresche.

Le principali cause di errore sono:

program disturb: programmare una pagina altera leggermente celle vicine;
read disturb: molte letture disturbano celle non selezionate;
retention loss: la carica intrappolata si disperde nel tempo;
usura degli ossidi: i cicli programmazione-cancellazione degradano l’isolante;
temperatura: accelera perdita di carica e alcuni processi di degrado;
interferenza tra celle: celle vicine influenzano le soglie reciproche.

La conservazione dei dati a lungo termine dipende da temperatura, età della NAND, numero di cicli già subiti e margini residui di errore. Un SSD spento non è un archivio eterno: mantiene i dati per tempi finiti, specificati entro condizioni ambientali e di usura.

Wear leveling e durata

Ogni blocco NAND sopporta un numero finito di cicli programmazione-cancellazione. Il wear leveling cerca di distribuire questi cicli in modo uniforme.

Si distinguono due strategie:

Strategia	Idea
Wear leveling dinamico	distribuisce le nuove scritture sui blocchi meno usurati
Wear leveling statico	sposta anche dati freddi per liberare blocchi poco usati

Senza wear leveling statico, dati mai modificati potrebbero restare per anni su blocchi quasi nuovi, mentre altri blocchi verrebbero riscritti continuamente. Spostare dati freddi ha un costo, ma migliora l’uso complessivo della NAND.

La durata commerciale viene spesso espressa come TBW (terabytes written) o DWPD (drive writes per day). Sono metriche pratiche, ma non raccontano tutto: carico casuale, temperatura, write amplification, spazio libero e firmware influenzano molto la vita reale.

Cache e prestazioni

La prestazione di un SSD dipende dal parallelismo interno. Più canali, die e piani possono lavorare in parallelo, maggiore è la banda potenziale. Le letture e scritture sequenziali sfruttano bene questo parallelismo; gli accessi casuali piccoli stressano maggiormente FTL, cache e latenza interna.

Molti SSD usano cache DRAM per mantenere tabelle di mapping rapide. Alcuni usano una porzione di NAND TLC o QLC in modalità pseudo-SLC: memorizzano temporaneamente un solo bit per cella per scrivere più velocemente. Quando la cache si riempie, il firmware sposta i dati nella forma definitiva, e le prestazioni possono calare.

È per questo che la velocità dichiarata in scrittura non sempre si mantiene su trasferimenti lunghi. Dopo l’esaurimento della cache, il limite diventa la programmazione reale della NAND e il lavoro di garbage collection.

Interfacce e comando dell’host

Un SSD può usare interfacce diverse. SATA nasce per sostituire i dischi magnetici e porta con sé molti vincoli storici. NVMe, usato su PCI Express, è progettato per memorie non volatili moderne: supporta code multiple, alta parallelizzazione e minore overhead software.

La differenza non cambia il principio della NAND, ma cambia quanto bene il computer riesce a sfruttare il parallelismo interno. Un SSD NVMe non è automaticamente migliore in ogni scenario, ma può offrire latenze più basse e throughput molto più alto quando controller, NAND e carico lo permettono.

Protezione da perdita di alimentazione

Una scrittura SSD non è istantaneamente definitiva in tutti i livelli interni. Dati e tabelle di mapping possono trovarsi in cache o in transito. Se manca alimentazione durante una scrittura, il rischio non è solo perdere l’ultimo dato: si può corrompere lo stato interno del mapping.

Gli SSD enterprise spesso includono condensatori o sistemi di protezione da perdita di alimentazione che danno al controller il tempo di completare operazioni critiche. Nei dispositivi consumer la protezione può essere più limitata. Il file system, il sistema operativo e il firmware devono quindi cooperare per ridurre il rischio, ma le garanzie dipendono dal progetto dell’unità.

Confronto con hard disk e RAM

Caratteristica	SSD	Hard disk	RAM
Persistenza senza alimentazione	sì	sì	no, salvo memorie speciali
Parti mobili	no	sì	no
Accesso casuale	molto rapido	lento per vincoli meccanici	molto rapido
Scrittura in-place	no, gestita dal FTL	sì a livello di settore fisico	sì
Usura per scrittura	sì	diversa, prevalentemente meccanica/magnetica	non paragonabile
Costo per bit	medio	basso	alto

La forza dell’SSD è nella latenza ridotta: senza meccanica, l’accesso casuale è enormemente più rapido rispetto a un disco magnetico. Il limite non è più cercare fisicamente un settore, ma gestire in modo efficiente celle che si usurano, devono essere cancellate a blocchi e richiedono correzione continua degli errori.

Sintesi operativa

Una memoria SSD funziona intrappolando carica in celle NAND e leggendo lo spostamento della loro tensione di soglia. Questa fisica permette una memoria non volatile compatta e veloce, ma impone vincoli severi: le pagine si programmano, i blocchi si cancellano, le celle si usurano e gli errori devono essere corretti continuamente.

Il controller è ciò che rende utilizzabile la NAND. Traduce indirizzi logici in posizioni fisiche, distribuisce le scritture, corregge errori, recupera spazio, gestisce cache e nasconde al sistema operativo la complessità del supporto. Un SSD moderno è quindi meno un “chip di memoria” isolato e più un sistema di archiviazione governato da firmware.