Storage

Resistenza, consumi e materiali

Pagina 4: Resistenza, consumi e materiali

I produttori usano tecniche di correzione d'errore, come BCH e LDPC (Low-Density Parity Check) ECC, per gestire gli inevitabili errori che interessano qualsiasi supporto di memoria. La moderna NAND TLC a bassa resistenza richiede LDPC, che aumenta il recupero di errore, ma incappa anche in un overhead rilevanti per le prestazioni. LDPC può portare a valori di I/O anomali, che sono le richieste di dati erranti che hanno bisogno di più tempo per completarsi rispetto al normale funzionamento.

LDPC si comporta bene durante un normale processo d'errore "hard decision", quando gli errori sono facili da correggere, ma ha un impatto prestazionale quando il codice passa in modalità "soft decision" con bit difficili da ripristinare. La decodifica "soft decision" rilegge la cella e le aree circostanti per determinare i contenuti della cella, il che porta a un aumento imprevedibile della latenza a centinaia di microsecondi per alcune operazioni. La modalità di correzione d'errore soft decision prende il sopravvento con l'usura del supporto. Non è ideale per l'archiviazione, ma è ancora peggio nel caso la memoria sia usa come una DIMM.

BCH ECC non ha un overhead così alto e 3D XPoint ha un bit error rate inferiore, quindi Micron ha optato per una correzione d'errore BCH proprietaria più leggera con i prodotti QuantX. È da questa scelta che deriva l'uso del controller CNEX, di cui ci occuperemo a breve. La soglia di resistenza di 25DWPD di QuantX è il risultato dell'ottimizzazione del supporto per le alte prestazioni, anziché l'alta resistenza. Micron ha regolato la propria ECC per evitare che interferisca con le prestazioni del supporto a bassa latenza. L'azienda potrebbe incrementare le capacità ECC per avere maggiore resistenza, con effetti deleterie sulle prestazioni.

Se un mix di prestazioni e resistenza ha senso nel settore dell'archiviazione, solleva dei dubbi per quanto riguarda lo sviluppo di DIMM 3D XPoint da parte di Intel – finora apparse in pubblico un'unica volta. Una DIMM Optane dovrebbe richiedere una resistenza molto superiore a 25DWPD, e se optare per ECC impone troppo overhead prestazionale nel più lento supporto di archiviazione, l'uso di 3D XPoint come memoria potrebbe essere problematico.

Intel potrebbe ovviamente avere altre soluzioni per la correzione d'errore, ma le due aziende stanno usando lo stesso supporto, e le DIMM Optane avranno un FPGA per la gestione degli errori. Ci sono molti report sul fatto che Intel non porterà le DIMM sul mercato tanto presto: se quelle voci saranno confermate probabilmente sarà colpa di bit error rate, resistenza e le linee guida termiche. IMFT si aspetta che la resistenza di 3D XPoint aumenti a ogni generazione, al contrario di quanto avviene per la NAND. È possibile che Intel possa eliminare qualsiasi possibile ritardo delle DIMM Optane con la prossima generazione di 3D XPoint.

Sia i prodotti destinati all'archiviazione che quelli di memoria dovranno conformarsi agli standard termici stabiliti dalla JEDEC. Non è un problema per le soluzioni dedicate all'archiviazione, mentre i dettami per le DIMM sono più stringenti. L'abilità di rispettare soglie di temperature specifiche sarà un altro requisito chiave per le implementazioni "on package" e persino quelle "on die".

Consumi

Intel ha dichiarato che 3D XPoint offre un consumo medio inferiore del 30% rispetto ad altre soluzioni, ma tale valore è probabilmente figlio della velocità del supporto e di misurazioni con carichi di lavoro prolungati. L'abilità di rispondere alle richieste rapidamente e poi tornare in stato idle o sleep quasi immediatamente permetterà di consumare meno.

Il consumo è una priorità nei datacenter, il vero obiettivo di Micron, ma l'azienda ha dichiarato che 3D XPoint non assicura consumi inferiori perché è facile attivare molte celle contemporaneamente. Piuttosto che godere di consumi inferiori sarà più facile accedere a maggiori prestazioni. Micron si aspetta un TDP simile agli SSD basati su NAND, già decisamente migliori rispetto a tante tecnologie concorrenti. Prestazioni superiori all'interno di un consumo simile permettono di godere di livelli di efficienza (IOPS per watt) decisamente superiori, specialmente con carichi misti, come vedremo più avanti.

Interconnessioni proprietarie

I die 3D XPoint sono impilati in normali package BGA, ma non usano la specifica ONFI 4. L'ONFI (Open NAND Flash Interface) Workgroup consiste di oltre 100 membri che definiscono l'interfaccia standard per la memoria NAND. ONFI permette ai package NAND di connettersi tramite connessioni standard sul PCB e comunicano con il controller dell'SSD con un'interfaccia standard. In questo modo è possibile assicurare interoperabilità tra i diversi componenti di un SSD.

IMFT produce memoria NAND conforme alle specifiche ONFI, ma non userà lo standard ONFI per 3D XPoint. ONFI è stata pensata per la memoria NAND, e secondo Micron la specifica aggiunge troppa latenza per essere usata con 3D XPoint. Micron ha sviluppato un'interconnessione proprietaria ottimizzata per i chip 3D XPoint, provvisoriamente chiamata QuantX Media Interface. Non sappiamo se sia stata sviluppata solo da Micron o con Intel. La nuova interfaccia è simile a quella DDR4 e secondo Micron è molto più veloce di ONFI – all'FMS 2016 operava a 800 MHz, ma non era quella finale. In ogni caso, l'uso d'interconnessioni proprietarie ai livelli più bassi del progetto sono solo il principio verso una "chiusura" che sta alimentando preoccupazioni nell'industria.

Scienza dei materiali e approvvigionamento

Lo sviluppo di semiconduttori sempre più avanzati è collegato alla scienza dei materiali, che è entrata in gioco pesantemente nello sviluppo di 3D XPoint. IMFT ha dichiarato che 3D XPoint ha richiesto 100 nuovi materiali, alcuni dei quali mai usati nei processi produttivi. Non sappiamo quali siano, ma possiamo dedurre che creano problemi seri a tutta la filiera. Gli OEM del settore enterprise, in particolare, hanno molto a cuore il concetto di "doppio fornitore" e non vogliono mai legarsi a una singola azienda. Gli impianti IMFT di Lehi, UT, e Singapore, insieme a quello di Dalian (Cina) di Intel allontanano in una certa misura quelle preoccupazioni, in quanto entrambe le aziende avranno fabbriche indipendenti lontane geograficamente che producono memoria. Non possono però affrontare tutti i problemi della filiera.

Un buon esempio l'abbiamo dalla transizione di HGST agli hard disk all'elio. L'industria degli HDD ha imparato alcune dure lezioni dall'alluvione tailandese, episodio che ha portato a una produzione ridotta degli hard disk. Per placare le preoccupazioni dei clienti, HGST ha dovuto mettere a punto una filiera di fornitori di elio geograficamente distribuiti. Un singolo fornitore geograficamente distribuito non conta però come una "doppia fonte".

Lo stesso principio si applica alla produzione di 3D XPoint, ma invece di un materiale – l'elio – IMFT e Intel devono approvvigionarsi di oltre 100 materiali diversi. È probabile che molti di questi siano di varietà esotica, ossia si tratti di metalli da terre rare. Arrivare a sviluppare quel doppio approvvigionamento geograficamente distribuito è probabilmente un obiettivo. I provider di servizi cloud hyperscale come Amazon, Google e Facebook non richiedono un doppio fornitore come gli OEM, ma per garantire la disponibilità sul mercato a lungo termine IMFT deve creare una filiera stabile.