Amazon, Cloudera, Hortonworks, MapR & Co.

Hadoop-Distributionen im Kurzprofil

21.07.2014
Von 
Bernd Reder ist freier Journalist und Autor mit den Schwerpunkten Technologien, Netzwerke und IT in München.

Pivotal HD

Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.

Neben der Anbindung von SQL-Datenbanken zählen die "Hadoop Virtualization Extensions" (HVE) von VMware zu den Besonderheiten der Enterprise-Version von Pivotal HD. Damit lassen sich virtualisierte Cluster aufbauen. Die Kernkomponente von Pivotal HD ist jedoch "HAWQ", eine massiv-parallele Hadoop-SQL-Engine. Sie erlaubt schnelle SQL-Abfragen, und dies, obwohl als Dateisystem HDFS verwendet wird. HDFS wird laut einer Studie von IDC von vielen Hadoop-Anwendern als Bremsklotz betrachtet und häufig durch herstellerspezifische Dateisysteme ersetzt.

Derzeit konzentriert sich Pivotal auf kleine bis mittelgroße Hadoop-Installationen. Das soll sich nach den Plänen des Unternehmens jedoch ändern. Im Visier sind Großkunden, die derzeit vorzugsweise zu den Lösungen von Cloudera, MapR oder Hortonworks greifen - oder zu Big-Data-Komponenten, die nicht auf Hadoop basieren. Zu den Stärken des Anbieters zählt, dass er sich auf versierte Fachleute (von EMC) verlassen kann, die Kunden im Rahmen von Hadoop-Projekten unterstützen. Das gilt nicht nur für die Implementierung der Software, sondern auch für die Auswahl der entsprechenden Hardwarekomponenten. (pg)