Big Data "no problem" con ETERNUS CD10000 di Fujitsu

Quello dei Big Data è un tema al centro dell'attenzione per le aziende perché, in linea di principio, consentono di ottenere informazioni indispensabili al business molto velocemente, e questo a partire da una massa di informazioni che sono costituite in parte da dati strutturati e in parte da dati non strutturati che ogni azienda è in grado di ottenere.

Ma esistono aspetti a cui si deve porre attenzione, pone in guardia Roberto Cherubini, IT Architect di Fujitsu. La differenza principale rispetto al passato, evidenzia Cherubini, è che mentre sino ad ora si è provveduto a raccogliere ed elaborare grandi quantità di dati, in principal modo strutturati, ora si raccolgono anche grosse quantità di dati non strutturati quali, ad esempio, quelle originate dal social.

Roberto Cherubini

L'altra peculiarità dell'attuale momento evolutivo è che l'elaborazione di queste grosse quantità di dati deve essere fatta in tempi rapidissimi. Ottenere informazioni inerenti a quello che accadeva due o tre giorni prima non ha più senso nel business di oggi.

Quello che serve è quindi un nuovo tipo di approccio per il quale si deve porre attenzione ad alcuni aspetti. Prima di dedicarsi alla raccolta di dati, strutturati o non strutturati, va analizzato, a priori, quale è l'obiettivo che un'azienda intende raggiungere ed in che tempi; cosa si vuol ottenere a supporto del business. Va definita una strategia e non ultimo vanno delimitati i domini di interesse . E' solo a questo punto che si può definire una modalità operativa che sia consequenziale perché ogni organizzazione ha le sue peculiarità.

Architetture multinodali ad altissima resilienza

Va osservato che non è solo lo storage ad essere coinvolto in un progetto Big Data, ma vi è anche la componente elaborativa e la componente applicativa e software. Si deve disporre di strumenti che catturano i dati, estrarli dalle banche dati, analizzarli, ripulirli, normalizzarli e, infine, disporre di strumenti per ricaricarli in una apposita struttura che a questo punto non è un usuale data base relazionale.

In campi di analisi come quelli per i Big Data normalmente si utilizzano paradigmi di elaborazione "shared nothing" (architettura distribuita con nodi indipendenti e autosufficienti), con nodi di elaborazione tendenzialmente piccoli e equipaggiati con due o al massimo quattro Cpu ma ad elevato parallelismo, con uno storage “vicino” al nodo di elaborazione che permetta una interazione molto veloce e possibilmente in memoria, con file system distribuito in modo da avere una parallelizzazione ad alto livello, e che si fa anche carico, se un nodo elaborativo cade, di far si che il task venga assegnato ad un altro nodo elaborativo.

Per quanto concerne lo storage, sino ad oggi questi era utilizzato come semplice contenitore dei dati e la piattaforma era costituita da una struttura con uno o due controller, che supportavano diversi livelli RAID in modo da poter recuperare i dati in caso di perdita di un disco.

Sono strutture solide ed espandibili, in modalità scale-up, anche sino a 5 – 6 PB. Per i Big Data ci si può muovere però nel range dei 50 - 100 PB e in pratica con architetture convenzionali non si è in grado di mantenere a costi accettabili le performance necessarie, che degradano se si dovesse rompere un disco e provvedere alla ricostruzione dell’informazione.