RapidRAID al posto di RAID per archiviazione sicura e veloce

Un gruppo di ricercatori di Singapore sta affrontando il tema dell'archiviazione su moltissimi dischi, come avviene nei datacenter. RapidRAID dovrebbe ridurre l'uso delle risorse di rete e calcolo preservando l'affidabilità.

Avatar di Manolo De Agostini

a cura di Manolo De Agostini

RapidRAID al posto di RAID. Secondo quanto riportato da The Register, un gruppo di ricercatori di Singapore ha proposto un nuovo modo per proteggere l'integrità dei dati in sistemi di archiviazione distribuita. RapidRAID offre una protezione dei dati massima ma consuma meno risorse (di rete, calcolo, etc) rispetto agli approcci esistenti.

Attraverso il RAID, acronimo di Redundant Array of Independent Disks, si possono replicare dati su più hard disk, in modo da non perdere informazioni se un disco dovesse rompersi. Ci sono più livelli di RAID che servono per rispondere a diverse esigenze di affidabilità e rapidità. 

L'incremento del volume di dati immagazzinati in questi sistemi ha portato all'introduzione dei cosiddetti "erasure code" (codice di correzione delle cancellazioni), alternativa alla replicazione e particolarmente adatti all'archiviazione nei datacenter, dove vecchi insiemi di dati a cui si accede raramente possono essere codificati, mantenendo le repliche unicamente per gli ultimi dati.

Gli erasure code consentono la frammentazione di dati su un ampio insieme di dischi, prima che i dati desiderati siano riassemblati usando i frammenti provenienti da molteplici fonti. "Molti recenti studi considerano la progettazione di nuovi erasure code focalizzati sull'archiviazione per migliorare la riparabilità. Al contrario, il nostro lavoro affronta la migrazione dalla replicazione alla codifica", scrivono i ricercatori ad accompagnamento del documento.

"Proponiamo una nuova strategia di pipelined coding che distribuisce il carico di rete e di una codifica single-object tra differenti nodi, velocizzando l'archiviazione di object multipli. Presentiamo inoltre codici RapidRAID, una famiglia di erasure code all'interno di una pipeline i quali offrono maggiore velocità di archiviazione senza compromettere l'affidabilità dei dati o gli overhead nell'archiviazione".

Nel documento i ricercatori offrono "una vera implementazione dei codici RapidRAID e benchmark delle prestazioni usando sia cluster di 50 nodi che un insieme di 16 istanze Amazon EC2. I codici RapidRAID riducono il tempo di codifica single object fino al 90%, mentre quando più object sono codificati simultaneamente la riduzione è fino al 20%". Secondo i ricercatori – il cui lavoro è chiaramente dedicato a risolvere i problemi esistenti in grandi datacenter – c'è ancora molto da fare per far sì che RapidRAID possa essere ritenuto adeguato per sistemi che richiedono più di due copie di dati.