Hadoop-Distributionen und -Grundlagen im Überblick

Hadoop mischt den Big-Data-Markt auf

Thomas Drilling ist als freier IT-Journalist und IT-Consultant tätig. Seine Spezialgebiete sind Linux und Open-Source-Software.
Der Big-Data-Markt boomt und wächst deutlich kräftiger als der IT-Markt allgemein. Wir erklären die zentrale Rolle des Hadoop-Frameworks der Apache Software Foundation und welche Hadoop-Distributionen derzeit das Rennen machen.
Cloudera Manager
Cloudera Manager
Foto: Cloudera

Big Data ist in aller Munde. Doch worin ist der Hype eigentlich begründet? Dass Big Data kein flüchtiger Trend ist, wissen vor allem Unternehmen, die sich von Berufs wegen mit der Analyse von Daten befassen, etwa Hersteller von Data-Warehouse-Lösungen, obwohl Data Warehouse trotz ähnlicher Ziele streng genommen in Konkurrenz zu Big Data steht. So oder so ermöglicht die permanente Verfügbarkeit von Datenströmen aller Art heute Anwendungen, die noch vor zehn Jahren kaum vorstellbar waren. Wer den aktuellen Hype um Big Data verstehen will, sollte sich daher mit der Technik, den verfügbaren Produkten sowie dem aktuellen Marktgeschehen auseinandersetzen.

Investoren wittern großes Geld in Hadoop und NoSQL

Aus Sicht der Wirtschaftsfachmänner ist ein Indiz für das Potenzial der neuen Technik, dass sich Investmentgesellschaften derzeit besonders für Unternehmen interessieren, die sich mit Hadoop oder NoSQL-Datenbanken befassen. Kein Wunder: Die Analysten von IDC prognostizieren für den Big-Data-Markt in diesem Jahr ein Gesamtvolumen von 16,1 Milliarden Dollar. Allerdings teilt sich der Markt grob in zwei Bereiche auf. Erstens in das Segment des "operativen Daten-Managements", in dem hauptsächlich die Protagonisten der NoSQL-Fraktion vertreten sind. Und zweitens in den Sektor der analytischen Datenverarbeitung. Hier agieren alle Anbieter, die mit der Distribution von auf dem Hadoop-Framework basierenden Lösungen ihr Geld verdienen.

Auffällig ist, dass der Big-Data-Markt im Vergleich zur sonstigen IT überproportional wächst. Man kann das auch daran erkennen, dass Finanzinvestoren sogar einschlägige Startups und Newcomer bereitwillig mit Risikokapital versorgen.. So konnte etwa der Hadoop-Marktführer Cloudera im Rahmen seiner letzten Finanzierungsrunde sage und schreibe 740 Millionen Dollar einsammeln. Unter Einbeziehung bereits vorangegangener Finanzierungsrunden stecken inzwischen rund 900 Millionen Dollar Venture-Capital in dem Unternehmen. Hortonworks, Clouderas größter Konkurrent, konnte sich in diesem Jahr ebenfalls über rund 100 Millionen Dollar Wagniskapital freuen, ebenso wie Elasticsearch über 70 Millionen Dollar. Ähnlich investitionsfreudig zeigen sich die Risikofinanzierer bei Firmen, die im Marktsegment des operativen Daten-Managements tätig sind. Hier stehen Datenbanklösungen im Fokus, die sich im Umfeld von NoSQL tummeln. So konnte etwa MongoDB bereits im Jahr 2012 rund 150 Millionen Dollar Risikokapital akquirieren. Und erst vor wenigen Tagen überraschte das Unternehmen Couchbase mit der Mitteilung, 60 Millionen Dollar Risikokapital für die Weiterentwicklung seines gleichnamigen, auf dem NoSQL-Framework CouchDB der Apache Software Foundation basierenden kommerziellen Servers erhalten zu haben.

Big Data wird zum wesentlichen Produktionsfaktor

Eine Besonderheit von Big Data besteht darin, dass im Gegensatz zum Data Warehousing überschaubare Hardwareinvestitionen genügen, um eigene Big-Data-Projekte zu starten. Laut der Studie Big Data Analytics des Beratungsunternehmens BARC scheint sich das Sammeln und Analysieren von Daten in Big-Data-Dimensionen in diesem Jahr bei zahlreichen Unternehmen zu einem wesentlichen Produktionsfaktor zu entwickeln, mit derselben Bedeutung wie Kapital, Grundbesitz und Arbeit. Langfristig dürften sich Daten laut BARC-Geschäftsführer Carsten Bange zum wichtigsten Produktionsfaktor überhaupt entwickeln. Somit hat Big Data das Potenzial, Geschäftsprozesse und Geschäftsmodelle nachhaltig zu verändern. So kommt die BARC-Studie unter anderem zu dem Schluss, dass zahlreiche Unternehmen der DACH-Region bereits Big Data-Projekte am Start haben, wobei die Ergebnisse die Erwartungen oft übertrafen. Über 60 Prozent der befragten Firmen konnten ihre operativen Prozesse mit Big Data besser steuern und 45 Prozent der Betriebe nachweisbar Kosten senken.