RapidRAID al posto di RAID. Secondo quanto riportato da The Register, un gruppo di ricercatori di Singapore ha proposto un nuovo modo per proteggere l'integrità dei dati in sistemi di archiviazione distribuita. RapidRAID offre una protezione dei dati massima ma consuma meno risorse (di rete, calcolo, etc) rispetto agli approcci esistenti.
Attraverso il RAID, acronimo di Redundant Array of Independent Disks, si possono replicare dati su più hard disk, in modo da non perdere informazioni se un disco dovesse rompersi. Ci sono più livelli di RAID che servono per rispondere a diverse esigenze di affidabilità e rapidità.
L'incremento del volume di dati immagazzinati in questi sistemi ha portato all'introduzione dei cosiddetti "erasure code" (codice di correzione delle cancellazioni), alternativa alla replicazione e particolarmente adatti all'archiviazione nei datacenter, dove vecchi insiemi di dati a cui si accede raramente possono essere codificati, mantenendo le repliche unicamente per gli ultimi dati.

Gli erasure code consentono la frammentazione di dati su un ampio insieme di dischi, prima che i dati desiderati siano riassemblati usando i frammenti provenienti da molteplici fonti. "Molti recenti studi considerano la progettazione di nuovi erasure code focalizzati sull'archiviazione per migliorare la riparabilità. Al contrario, il nostro lavoro affronta la migrazione dalla replicazione alla codifica", scrivono i ricercatori ad accompagnamento del documento.
"Proponiamo una nuova strategia di pipelined coding che distribuisce il carico di rete e di una codifica single-object tra differenti nodi, velocizzando l'archiviazione di object multipli. Presentiamo inoltre codici RapidRAID, una famiglia di erasure code all'interno di una pipeline i quali offrono maggiore velocità di archiviazione senza compromettere l'affidabilità dei dati o gli overhead nell'archiviazione".
Nel documento i ricercatori offrono "una vera implementazione dei codici RapidRAID e benchmark delle prestazioni usando sia cluster di 50 nodi che un insieme di 16 istanze Amazon EC2. I codici RapidRAID riducono il tempo di codifica single object fino al 90%, mentre quando più object sono codificati simultaneamente la riduzione è fino al 20%". Secondo i ricercatori – il cui lavoro è chiaramente dedicato a risolvere i problemi esistenti in grandi datacenter – c'è ancora molto da fare per far sì che RapidRAID possa essere ritenuto adeguato per sistemi che richiedono più di due copie di dati.

Commenti dei lettori (8)
L'articolo in pratica dice che associando i frammenti di dati a dei metadati possono essere "spalmati" su un piu' ampio e distribuito set di dischi.
Questa tecnica e' utilizzata anche da i file system di google e azure per garantire l'integrità dei dati.
La parte sotto penso che riguardi (letta veloce) un sistema per distribuire il carico della codifica di questi metadati che sono creati partendo dai frammenti di informazioni.
adesso è chiarissimo
Magari e' un block device (un supporto di storaggio) distribuito in rete (tipo un LVM con gli extents sui singoli PV in rete, ma che che fa lo stripe anche dei metadati) in cui invece che mantenere le copie complete si tengono solo le differenze (tipo un revision control system, o gli snapshot dei file system moderni).
Solo che invece che avere i metadati per singolo file (tipo i vecchi inodes) tiene i metadati per i singoli frammenti (extents che chiama oggetti) che sono anche essi distribuiti. Poi per ripescare i file i metetadati (e immagino i checksums per controllarne la validita' piu' qualche algoritmo per pescarli in modo piu' veloce dai supporti ridondanti) non vengono elaborati da un punto centrale ma calcolati dai nodi, cosi' come l'assemblamento delle singole patch (oggetti) che vengono elaborate dai nodi e non presentate ai client da un server?
Poi ci sarebbe la storia dellgli erasure codi differenti, che sara' una evoluzione di un file system tipo log che non prevede la modifica dei dati (la rescrittura, li rende cancellati e basta).
Io ci ho provato...
Bye!
Accesso utenti