Il disco da 120 petabyte: ci stanno 24 miliardi di MP3

La divisione di ricerca e sviluppo di IBM ha realizzato un sistema di archiviazione da 120 petabyte, unendo insieme 200mila dischi fissi. Lo spazio è sufficiente per archiviare 24 miliardi di file MP3. La sola indicizzazione dei file occupa 2 petabyte.

Avatar di Elena Re Garbagnati

a cura di Elena Re Garbagnati

Se siete a corto di spazio per i vostri dati, sappiate che IBM ha realizzato il primo disco fisso da 120 petabyte (120 milioni di gigabyte), assemblando insieme 200mila dischi fissi tradizionali e facendoli lavorare come se fossero un'unica unità.

Per rendere l'idea, questo mega contenitore di dati offre abbastanza spazio per archiviare 24 miliardi di file MP3 da 5 MB ciascuno, oppure 60 copie di backup del più grande archivio di Internet, WayBack Machine, che attualmente conta 150 miliardi di pagine web.

IBM ha dovuto riprogettare i sistemi rack, che devono essere raffreddati a liquido 

A realizzare il progetto è stata la divisione di ricerca e sviluppo di IBM con sede ad Almaden, e ovviamente il lavoro al quale è destinato questo sistema di archiviazione eccezionale non ha nulla a che vedere con le modeste necessità degli utenti privati.

Il super disco dovrebbe essere destinato ad ospitare i file per le simulazioni di sistemi complessi, come per esempio quelli dei modelli meterologici e climatici, le elaborazioni sismiche per il settore petrolifero o gli studi molecolari sui genomi o le proteine.

In futuro, inoltre, i sistemi cloud potrebbero dover ospitare in hosting una quantità tale di informazioni da avere neccesità di spazi di archiviazione immensi, come quelli a cui hanno lavorato gli ingegneri di IBM.

Ne è convinto Bruce Hillsberg, a capo del progetto e della divisione di ricerca sui dischi fissi di Big Blue, secondo cui "questo sistema da 120 petabyte al momento è un estremo che difficilmente potrebbe rivelarsi indispensabile, ma in pochi anni è possibile che tutti i sistemi di cloud computing ne avranno uno simile in dotazione.

Il nuovo progetto di IBM, ha spiegato l'analista di IDC Steve Conway, polverizza il precedente record di archiviazione, dato che il più grande array oggi disponibile può memorizzare al massimo 15 petabyte di dati. 

Il problema, con così tanto spazio da gestire, è prima di tutto quello di tenere traccia dei nomi, dei tipi e degli altri attributi dei file memorizzati nel sistema, un'attività che assorbe circa due petabyte di capacità: uno spreco di spazio pazzesco in senso assoluto, ma insignificante rispetto alla capienza complessiva del sistema.

Il sistema si compone di 200mila dischi fissi che lavorano come unica unità

Per raggiungere questo risultato gli ingegneri di IBM hanno dovuto sviluppare una serie di nuovi componenti hardware e software in grado di combinare in modo efficiente i migliaia di dischi rigidi alla base del sistema.

Questi ultimi risiedono ordinatamente all'interno di appositi rack, che hanno dovuto essere riprogettati rispetto ai modelli standard impiegati nei datacenter. È stato necessario aumentarne l'altezza in modo da non dover aumentare troppo la dimensione delle stanze che li ospitavano. Inoltre, i dischi così disposti devono essere raffreddati con circuiti ad acqua, in quanto i sistemi classici di ventilazione non sono sufficienti per dissipare tutto il calore prodotto.

I guasti che si verificano inevitabilmente quando si lavora con migliaia di dischi fissi hanno richiesto l'implementazione di tecnologie che consentissero al supercomputer di continuare a lavorare senza rallentamenti anche quando uno o più dischi si rompono. 

120 petabyte saranno utili per archiviare, per esempio, i modelli meterologici e climatici

In dettaglio, IBM è partita dalla tecnica ormai consolidata della scrittura di copie multiple dei dati su differenti dischi fissi, di modo che quando un disco smette di funzionare il sistema prelevi i dati dagli altri hard disk e, parallelamente al lavoro che sta svolgendo, inizi lentamente a farne una copia integrale su un altro disco.

Nel caso in cui si guastassero più dischi contigui, la ricostruzione della copia dei dati verrebbe eseguita con priorità per evitare che l'effetto a catena comporti la perdita permanente di dati. Secondo Hillsberg con questo metodo il sistema non dovrebbe perdere dati per un milione di anni, senza compromessi sulle prestazioni.

Quanto alle prestazioni, i ricercatori si sono serviti di un file system sviluppato direttamente nel centro di Almaden che è identificato dalla sigla GPFS (General Parallel File System) ed è indispensabile per ottenere un accesso più veloce ai dati. 

In pratica, i singoli file vengono spezzettati su più dischi fissi di modo che alcune parti possano essere lette e scritte nello stesso tempo. Inoltre, il GPFS è super efficiente: è in grado d'indicizzare 10 miliardi di file in 43 minuti.