Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

14.11.2014
Von 
Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.

Hortonworks Data Platform

Das Hortonworks-Enterprise-Projekt-Netzwerk
Das Hortonworks-Enterprise-Projekt-Netzwerk
Foto: Hortonworks

Hortonworks wurde 2011 von 24 Entwicklern aus dem ursprünglichen Yahoo-Hadoop-Team für Development und Operations gegründet. Nach wie vor ist Hortonworks die treibende Kraft in Sachen freie Apache-Hadoop-Core-Projekte sowie des YARN-Standards und der meisten Erweiterungen. Die von Hortonworks vorangetriebenen Entwicklungen fließen unmittelbar auch in das Open-Source-Projekt der ASF ein. Man kann daher davon ausgehen, dass in kaum einer anderen Distribution mehr Hadoop-Erfahrung steckt. Die eigene Hadoop-Distribution von Hortonworks trägt den Namen Hortonworks Data Platform (HDP) und liegt aktuell in der Version 2.1 vor. HDP ist außerdem die einzige hundertprozentig quelloffene Hadoop-Distribution am Markt und lässt sich von der Projektseite herunterladen. Ferner gibt es HDP als einfach installierbare HDP- Sandbox, eine vorkonfigurierte virtuelle Umgebung für VMware, Hyper-V und VirtualBox.

Eines der wichtigsten Merkmale von Hortonworks Data Platform ist also, dass sich die Distribution so nahe wie keine andere am Hadoop-Standard orientiert. HDP versteht sich laut Hersteller primär als Ergänzung zur konventionellen Datenhaltung. Dies macht es auch potenziellen Partnern wie Red Hat oder Microsoft relativ einfach, HDP in eigene Lösungen zu integrieren und als OEM-Produkt zu vermarkten. So ist HDP zum Beispiel die einzige Hadoop-Lösung, die auch in Windows HDP for Windows verfügbar ist. Ergänzend bietet Microsoft mit dem Dienst Azure HDInsight einen komplett auf Hadoop basierenden Service für Windows Azure an, der erstmals den neuen Hadoop-2-Standard YARN in Azure verfügbar macht und ebenfalls auf HDP for Windows basiert. Die Installation erfolgt bei HDP überwiegend manuell und ist bestens dokumentiert. Optional ist eine Web-basierende Verwaltung des Hadoop-Clusters mit Apache Ambari möglich. Das im kalifornischen Palo Alto ansässige Unternehmen Hortonworks ist heute rund 300 Mitarbeiter stark und verdient sein Geld mehr oder weniger ausschließlich mit dem Verkauf von Hadoop-Support sowie mit Hadoop-Schulungen. Die Gebühren für HDP-Support richten sich nach der Größe des Hadoop-Clusters. Prominente Hortonworks-Nutzer sind Xing, WD oder Bloomberg.