Amazon, Cloudera, Hortonworks, MapR & Co.

Hadoop-Distributionen im Kurzprofil

Bernd Reder ist freier Journalist mit den Schwerpunkten Netzwerke, IT und Telekommunikation in München.
Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich hier als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor.

Anwender haben drei Optionen, um Hadoop zu nutzen. Sie können auf die Basisversion von Apache Hadoop zurückgreifen. Diese ist als Open Source kostenlos verfügbar, setzt jedoch beträchtliches Know-how voraus. Das betrifft insbesondere das Aufsetzen und Verwalten eines Hadoop-Server-Clusters. Zwar stehen etliche Tools zur Verfügung, die im Rahmen anderer Apache-Hadoop-Projekte entwickelt werden. Doch müssen diese quasi von Hand implementiert und aufeinander abgestimmt werden.

Für Unternehmen einfacher zu handhaben sind Hadoop-Distributionen, also Pakete, die aus der Basissoftware, Tools und teilweise herstellerspezifischen Erweiterungen bestehen. Anbieter solcher Distributionen sind beispielsweise Amazon, Cloudera, EMC, Hortonworks, IBM, MapR und Microsoft. Ein Vorteil für Unternehmenskunden besteht darin, dass sie vom Hersteller ein integriertes Softwarepaket erhalten, das sich einfacher konfigurieren lässt als die Grundversion von Hadoop. Hinzu kommt die technische Unterstützung durch den Hersteller.

Foto: Apache Software Foundation

Im Folgenden werden die Hadoop-Distributionen der genannten sieben Anbieter sowie die Hadoop-Kooperation von Intel mit Cloudera vorgestellt: