IT Pro

Apache Spark con Apache Hadoop più semplice con Cloudera

Cloudera, fornitore di una piattaforma di analisi e gestione dei dati basata su Apache Hadoop e di tecnologie open source, ha annunciato di aver ulteriormente integrato Apache Spark all'interno degli ambienti Apache Hadoop e ottenuto significativi miglioramenti in termini di fruibilità e interoperabilità. Per ampliare le funzionalità enterprise del motore per l'elaborazione dei dati, Cloudera ha aggiunto il supporto per Spark SQL e MLlib all'interno dei prodotti Cloudera Enterprise 5.5 e CDH 5.5.

"Con l'aggiunta di Spark SQL e MLlib alla piattaforma Cloudera e una chiara tabella di marcia con il progetto One Platform Initiative, l'adozione di Spark continuerà ad aumentare per casi d'uso in ambito batch, streaming e machine learning", ha affermato Doug Cutting, chief architect di Cloudera.

Doug Cutting   chief architect di Cloudera
Doug Cutting, chief architect di Cloudera

Nel corso dello scorso anno, Cloudera aveva già fatto passi avanti nel processo di  maturazione di Spark per affrontare una gamma di casi d'uso di elaborazione dati più ampia, tra cui applicazioni Internet of Things (IoT) end-to-end, un'elaborazione batch più semplice e machine learning nativo.

Per rendere possibile un'elaborazione batch più semplice e aiutare Spark a consolidarsi come motore di esecuzione standard in Hadoop, quest'anno Cloudera ha rilasciato la versione beta di Apache Hive-on-Spark. Strumento preferito per lo sviluppo ETL, l'integrazione di Hive con il motore di elaborazione Spark rappresenta una pietra miliare, ha evidenziato la società, nel supportare i carichi di lavoro di dati di nuova generazione e l'adozione di Spark come successore di MapReduce.

Con il recente di rilascio di Cloudera 5.5, Cloudera ha aggiunto Spark MLlib  con l'obiettivo di portare la semplicità d'uso di Spark e i miglioramenti delle prestazioni alle applicazioni di machine learning all'interno di Hadoop. Con Spark SQL ha invece voluto ampliare le funzionalità di Spark a disposizione di sviluppatori e data scientist al fine di permettere di incorporare con semplicità SQL all'interno delle applicazioni Spark.

La release include anche diversi miglioramenti al motore di query Spark come parte di Project Tungsten, al fine di migliorare in modo significativo efficienza e velocità.