Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

14.11.2014
Von 
Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.

Die wichtigsten Hadoop-Distributionen

Das Hadoop-Kernsystem (Hadoop Core) besteht wie gesehen nur aus dem MapReduce-Algorithmus und HDFS. Im allgemeinen Sprachgebrauch ist allerdings meist das Hadoop-Framework einschließlich des skizzierten Ökosystems aus zum Teil aufeinander basierenden Einzelprojekten gemeint. Trotzdem ist das Installieren und Verwalten eines Hadoop-Clusters, auch unter Einbeziehung weiterer Hadoop-Komponenten wie zum Beispiel Apache Ambari, immer noch eine sehr komplexe Angelegenheit, von der Datenanalyse in Echtzeit ganz zu schweigen.

Hadoop pur eignet sich daher nur für Spezialisten oder Entwickler. Hier schlägt die Stunde der Hadoop-Distributionen und Big-Data-Suiten. Eine Hadoop-Distribution ist eine Suite aus Hadoop Core und einer mehr oder weniger großen Anzahl vorkonfigurierter Hadoop-Komponenten, weiteren Tools und zum Teil herstellerspezifischen Erweiterungen. Darüber hinaus bekommen Unternehmen für Hadoop-Distributionen Support, auf den sie in der Regel angewiesen sind.. Big-Data-Suiten gehen noch ein Stück weiter. Diese kombinieren Hadoop Core mit weiteren Werkzeugen etwa zur Echtzeitanalyse, Datenmodellierung oder Visualisierung. Die Forrester-Studie "Big Data Solutions Q1 2014" nennt mit Amazon Web Services (AWS), Cloudera, Hortonworks, IBM, Intel, MapR Technologies, Microsoft, Pivotal Software und Teradata neun relevante Distributionen, allerdings fällt die von Intel aufgrund von Intels Einstieg bei Cloudera wieder weg. Aufgrund der sich derzeit abzeichnenden Konsolidierung des Marktes durch die zum Teil beträchtlichen Investments führender IT-Unternehmen und Risikofinanzierer bereinigt sich das Angebot relevanter Hadoop-Distributionen aus heutiger Sicht auf Hortonworks, Cloudera und Amazon Web Services (AWS).