Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

14.11.2014
Von 
Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.

Cloudera

Während sich Hortonworks Data Platform eng am Apache-Standard orientiert, integriert die Hadoop-Distribution von Cloudera CDH mit dem Prädikat "enterprise ready" auch eine Reihe von eigenen Entwicklungen. Im Kern verwendet allerdings auch CDH YARN für das Workload-Management und setzt wahlweise auf HDFS oder HBase als Storage Engine. Für die Batch-Verarbeitung kommen MapReduce, Hive und Pic zum Einsatz. Seit der Neuausrichtung der Cloudera-Distribution im Februar dieses Jahres integriert Clouderea das Apache-Projekt Spark in seine Distribution. Spark spielt in CDH eine zentrale Rolle, etwa zur Echtzeitanalyse, beim Stream-Processing oder beim Machine Learning. Hier kommt übrigens auch das Apache Projekt Mahout zum Einsatz. Mahout ist eine skalierbare Implementierung von maschinenlernenden Algorithmen und seit 2010 ein Top-Level-Projekt der ASF.

Die Cloudera-Distribution bringt zudem von Haus aus viele Sicherheitstechniken mit. Dazu muss man wissen, dass Sicherheit im Kontext von Hadoop mehrere Ebenen betrifft, etwa den Zugriff auf Storage, beziehungsweise HDFS, das Ressourcen-Management, den Zugang zum Cluster oder die Access-Kontrolle im Zusammenhang mit Hive. Für die Sicherheit auf Storage-Ebene kommt bei Cloudera beispielsweise von Haus aus das Apache-Projekt Sentry zum Einsatz, das allerdings bei der ASF noch Inkubator-Status hat. Sentry implementiert ein ausgeklügeltes und auf Rollen basierendes Authorisierungssystem für den Zugriff auf Daten und Metadaten eines Hadoop-Clusters. Die Entwicklung von Sentry wird maßgeblich von Cloudera gepuscht.

Mit Apache Accumulo ist ein weiteres Apache-Projekt ein wesentlicher Bestandteil der Cloudera-Distribution. Accumulo ist eine in Java implementierte Key/Value-Datenbank, die auf den Apache-Technologien Hadoop, Zookeeper und Thrift aufsetzt. Accumulo basiert auf Konzepten von Googles leistungsstarkem, aber proprietärem Datenbanksystem BigTable und wurde 2008 von der Nasa ins Leben gerufen. Auch das Accumulo-Projekt konnte im vergangenen Jahr rund 5,2 Millionen Dollar Risikokapital einsammeln. Accumulo liegt aktuell in der Version 1.6 vor, unterstützt Server-seitiges Scripting und bietet ebenfalls feingranulare Sicherheitsfunktionen.

Cloudera Manager und Editionen

Die Cloudera-Distribution CDH verfügt mit dem proprietären Cloudera Manager über ein Werkzeug zur Cluster-Administraton.
Die Cloudera-Distribution CDH verfügt mit dem proprietären Cloudera Manager über ein Werkzeug zur Cluster-Administraton.
Foto: Cloudera

Die mit Abstand wichtigste Eigenschaft der Cloudera-Distribution besteht allerdings darin, dass CDH über ein eigenes Installationsprogramm sowie mit dem proprietären Cloudera Manager über ein komfortables Werkzeug zur Cluster-Administraton verfügt. Das Unternehmen Cloudera ist ebenfalls in Palo Alto ansässig und beschäftigt rund 600 Mitarbeiter. Experten erwarten noch für dieses Jahr einen Börsengang von Cloudera. Der Big-Data-Spezialist könnte nach Einschätzung von Analysten damit rund vier Milliarden Dollar weiteres Kapital einsammeln.

Clouderas Enterprise-Data-Hub-Edition enthält auch Cloudera-eigene Erweiterungen.
Clouderas Enterprise-Data-Hub-Edition enthält auch Cloudera-eigene Erweiterungen.
Foto: Cloudera

Cloudera hat sein Produktportfolio mit der Integration von Spark Anfang des Jahres neu strukturiert. Die ehemalige kostenlose Version ohne Support-Anspruch "Cloudera Standard" trägt jetzt den Namen "Cloudera Express" und kombiniert die vollständig auf Open-Source-Komponenten basierende Basis-Hadoop-Distribution CDH mit dem proprietären Cloudera Manager. Ferner gibt es drei Enterprise-Editionen: Basic, Flex und Data Hub. Die Flex-Variante erlaubt Nutzern das Auswählen eines weiteres Werkzeugs aus Clouderas Baukastensystem, während die Enterprise Hub Edition ein Gesamtpaket mit sämtlichen von Cloudera mit Hadoop integrierten Tools zur Verfügung stellt, einschließlich HBase, Spark, dem von Cloudera entwickelten SQL-Analyse-Werkzeug Cloudera Impala und allen Backup-Funktionen. Außerdem lässt sich Cloudera als Live-Demo ausprobieren. Prominente Cloudera-Anwender sind Autoscout 24, Ebay, Netapp, Rackspace Hosting oder Samsung.