Framework für Big Data

10 Dinge, die Sie über Hadoop wissen sollten

Thomas Joos ist freiberuflicher IT-Consultant und seit 20 Jahren in der IT tätig. Er schreibt praxisnahe Fachbücher und veröffentlicht in zahlreichen IT-Publikationen wie TecChannel.de und PC Welt. Das Blog von Thomas Joos finden Sie unter thomasjoos.wordpress.com.
Geht es um Big Data, kommen Unternehmen kaum um die Open-Source-Lösung Hadoop herum. In diesem Beitrag zeigen wir Ihnen 10 Dinge, die Sie über Hadoop wissen sollten, wenn Sie die Lösung bereits einsetzen oder einsetzen wollen.
Foto: Apache Software Foundation

Hadoop steht über die Apache-Lizenz vollkommen zur Verfügung. Es sind keine zusätzlichen Lizenzen notwendig. Als Basisbetriebssystem bietet sich Linux an, welches in den meisten Distributionen ebenfalls kostenlos zur Verfügung steht.

Wollen Sie zusätzliche Dienste, Support und weitere Funktionen nutzen oder in Anspruch nehmen, müssen Unternehmen natürlich die Erweiterungen und den Support bezahlen.

Hadoop - Framework für Big Data

Whitepaper: Der Nutzen des Chief Data Officers

Der Chief Data Officer (CDO) wird immer öfter zu einer zentralen Führungkraft in Unternehmen auf der ganzen Welt. Der Grund ist die zunehmende Relevanz von Daten. Denn Daten sind überall und allgegenwärtig; sie untermauern jede Transaktion, jeden Betrieb und jegliche Interaktion innerhalb und außerhalb von Organisationen. Daten sind aber auf eine Infrastruktur angewiesen, sie müssen gespeichert, archiviert, analysiert und gesichert werden. Dafür braucht es den CDO. In dieser IBM-Studie wird die Rolle des CDO durchleuchtet und gezeigt, welche Vorteile Unternehmen konkret von ihm haben.

Hadoop ist ein Framework auf Basis von Java und dem MapReduce-Algorithmus von Google. Durch die Apache-Lizenz steht Hadoop grundsätzlich kostenlos zur Verfügung. Die Aufgabe von Hadoop ist es sehr große Datenmengen, effizient in Clustern verarbeiten und berechnen zu können. Für die Verarbeitung müssen Administratoren und Entwickler zusammenarbeiten, damit der Cluster optimal funktioniert. Der Dienst kann installiert oder über die Cloud betrieben werden.

Daraus besteht Hadoop

Hadoop besteht aus einem Cluster. Ein Knoten übernimmt die Steuerung (NameNode), die anderen die Berechnungen (DataNodes) im Cluster. Grundlage ist "Hadoop Common". Dieser stellt die Schnittstelle für alle anderen Bestandteile dar. MapReduce ist die wichtigste Funktion zur Verarbeitung der Daten. Die Technik teilt große Datenmengen in kleinere Teile auf, verteilt diese auf die Knoten im Hadoop-Cluster und führt diese nach der Berechnung wieder zusammen. Basis ist HDFS oder GPFS welches die Speicherung übernimmt. MapReduce sorgt für die Berechnung der Daten zwischen den Clusterknoten. Entwickelt wurde MapReduce von Google.

Lokaler Betrieb oder Cloud - Hadoop in der Azure-Cloud

Um Hadoop zu betreiben, benötigen Unternehmen einen Cluster, der die verschiedenen Knoten zur Berechnung enthält. Einfacher ist aber der Betrieb in der Cloud. Hier bietet Microsoft zum Beispiel mit HDInsight einen Cloud-Dienst in Azure an, mit dem Sie einen vollwertigen Hadoop-Cluster in der Cloud betreiben können. Im Gegensatz zu vielen anderen Microsoft-Lösungen, hat der Software-Konzern aber keine eigenen Standards integriert, sondern sich komplett an Hortonworks Data Platform (HDP) gehalten.

Ersetzt Hadoop Business Intelligence im Unternehmen?

Big Data-Lösungen wie Hadoop ergänzen Business Intelligence. Im Gegensatz zu BI-Lösungen, benötigen Big-Data-Lösungen keine perfekt zusammen gestellten Daten, sondern können aus einer Vielzahl verschiedener Datenquellen mit komplett unterschiedlichen Daten effektive Berichte und Analysen ausstellen. Ein BI-System kann zum Beispiel exakt darstellen, welches Produkt in unterschiedlichen Ländern zu welchem Prozentteil, Umsatz und zu welcher Marge verkauft wurde. Diese Informationen sind auch wichtig. Big-Data-Lösungen können wiederum erfassen bei welchem Kundenkreis das Produkt besonders gut ankommt, welche Zusammenhänge es mit anderen Produkten gibt, ob der Transport eines Produktes sowie dessen Lieferdauer auf die Verkaufszahlen Auswirkungen hatten. Auch ein Zusammenhang zwischen Defekten und Verkaufszahlen der nächsten Generation lässt sich erfassen.

IBM General Parallel File System im Big Data-Einsatz

Das IBM General Parallel File System (GPFS) ist ein spezielles Dateisystem von IBM, welches auch in Hadoop-Clustern zum Einsatz kommt. Diese verwenden oft das Hadoop File System (HDFS), können aber auch GPFS nutzen. Diese beiden Dateisystems können große Datenmengen enorm schnell verarbeiten und sind daher anderen Dateisystemen überlegen. Vorteil von GPFS ist zum Beispiel der schnelle Zugriff auf sehr große Dateien. Die Daten werden auf hunderte oder tausende Clusterknoten gespiegelt und verteilt, bleiben aber dennoch zugreifbar.

GPFS kann Daten auch intelligent speichern. Wenn Unternehmen verschiedene Technologien einsetzen, zum Beispiel SSD, SAN, NAS und DAS, kann GPFS häufig verwendete Daten in schnellen Bereichen sparen und alte Dateien auf langsamere Datenträger. Das ist bei der Verarbeitung mit Hadoop besonders wichtig.

Hadoop in Amazon Web Services, Google Cloud Platform und Rackspace

Neben Microsoft Azure HDInsight, lassen sich Hadoop-Cluster auch in Amazon Web Services (AWS) betreiben. Nutzen Sie AWS, werden die Daten des Hadoop-Clusters im AWS-Speicherdienst S3 abgelegt. Das Unternehmen Rackspace bietet ebenfalls eine Cloud-Lösung an, die auf Apache Hadoop und Hortonworks Data Platform aufbaut. Hadoop kann aber auch auf der Google Cloud Platform betrieben werden.

Die wichtigsten Hadoop-Distributionen

Neben den Möglichkeiten Hadoop in Microsoft Azure HDInsight oder Amazon Web Services zu betreiben, können Sie natürlich auch auf eigene Installationen setzen. Besonders bekannt in diesem Zusammenhang sind die folgenden Anbieter:

Hortonworks Data Platform

Cloudera

MapR

Hadoop erweitern - YARN und Co.

Auf dem Markt finden Sie zahlreiche Erweiterungen, mit denen sich der Funktionsumfang von Hadoop vergrößern lässt. Beispiele dafür sind Hadoop YARN und Apache Hive. Entwickler können mit Hive direkt die Daten abfragen, die in HDFS gespeichert sind.

Auch Apache Spark spielt in diesem Zusammenhang eine wichtige Rolle. Bei Yarn handelt es sich um eine Cluster-Verwaltungs-Technologie für Hadoop. Viele Big Data-Profis bezeichnen YARN auch als MapReduce 2.

Mit Apache ZooKeeper können Sie die Hadoop-Infrastruktur zentral steuern. Apache HCatalog ist eine Verwaltungslösung für verschiedene Prozessverarbeitungs-Tools.

Sicherheit und Überwachung im Hadoop-Cluster - Apache Knox und Chukwa

Bei Apache Knox handelt es sich um ein REST API Gateway für Hadoop-Cluster. Die Hadoop-Erweiterung erhöht das Sicherheitsmodell von Hadoop und integriert Authentifizierungen und Benutzerrollen.

Um die Hadoop-Infrastruktur zu überwachen, setzen Sie am besten auf Apache Chukwa. Die Lösung überwacht HDFS-Datenzugriffe und das MapReduce-Framework.

Oracle, IBM und Co. - Hadoop kommerziell erweitern

Oracle bietet zum mit Big Data SQL die Möglichkeit über SQL-Abfragen auf Big Data-Daten zuzugreifen. IBM InfoSphere BigInsights erweitert Hadoop um zahlreiche Möglichkeiten. Die Daten lassen sich besser verwalten und bieten mehr Möglichkeiten zur Abfrage. (mje)