Hadoop-Frameworks

Cloudera und Amazon im Big-Data-Wettbewerb

Joachim Hackmann ist Principal Consultant bei Pierre Audin Consulting (PAC) in München. Vorher war er viele Jahre lang als leitender Redakteur und Chefreporter bei der COMPUTERWOCHE tätig.
Das Startup Cloudera will den Umgang mit Big Data vereinfachen. Dazu liefert es ein Hadoop-basierendes Framework, das simple Abfragen für Analysezwecke erlaubt.
Foto: Cloudera

Der Erstkontakt mit Cloudera beginnt meistens mit einem Missverständnis: "Nein, wir sind keine Cloud-Company", klärt Matt Elson, Vice President Technology Alliances, im CW-Gespräch auf. "Wir sind im Big-Data-Geschäft." Möglicherweise hätten die Gründer des Unternehmens im Jahr 2008 ursprünglich mal die Idee verfolgt, ihr Framework auch als Cloud-Variante zu vertreiben, vermutet der Manager. Sollte es so gewesen sein, so haben die Firmengründer das Ziel mittlerweile fallengelassen. Heute vertreibt Cloudera das Kernprodukt "Enterprise Data Hub" entweder über Partner (in Deutschland bislang ausschließlich über T-Systems als Integrationspartner) oder direkt an Unternehmen bevorzugt aus der Finanz- und Versicherungs- sowie Handels- und Konsumgüterbranche.

EDH - die Hadoop-Distribution von Cloudera

Die Basis für sämtliche Cloudera-Projekte ist immer eine eigene Distribution des Apache-Hadoop-Frameworks, den das Unternehmen um Services anreichert und als "Enterprise Data Hub" verkauft. Die Plattform bietet lediglich die Infrastruktur für das Big-Data-Handling, also etwa Filesystem, Bibliotheken, Werkzeuge sowie Abfrageverfahren, Filter- und Verarbeitungsmechanismen wie MapReduce. Analyse- und Business-Intelligence-Anwendungen gibt es von Cloudera nicht, diese Funktionen liefern laut Elsen rund 700 zertifizierte Softwarepartner.

Zumeist starten die Cloudera-Kunden mit kleinen, internen Installationen zur Auswertung strukturierter Daten, beschreibt Elson die Strategie der Anwender. Häufig folgen zügig weitere Projekte, in denen auch unstrukturierte Daten (etwa aus Social-Media-Plattformen oder Finanzinformationen) verarbeitet werden. Eine eigene Public-Cloud-Infrastruktur, in der Anwender Big-Data-Abfragen abwickeln können, habe und plane Cloudera nicht, betont Elson.

Amazon macht Tempo in der Cloud

Genau das könnte zu einem Problem werden, meint zumindest Jeff Kelly. Cloudera sei "eine One-Product Company", bemängelt der Wikibon-Analyst. "Sie müssen sich mehr um die Cloud bemühen." Heutige Cloudera-Installationen laufen nahezu allesamt in internen Umgebungen hinter einer Firewall, damit grenze man eine große potentielle Nutzerschar aus.

Auslöser der Kritik war die Ankündigung des Big-Data-Streaming-Dienstes "Kinesis" von Amazon. Die Neuerung fand in der Branche enorme Beachtung, weil der Dienst die Echtzeitdatenanalyse erlauben soll. Aufgrund des Cloud-Betriebsmodells sei er einfach bedienbar, zügig einsetzbar und weitgehend skalierbar. Im Zusammenspiel mit "Redshift" (Datawarehousing), "Elastic MapReduce" (Verarbeitung auf Hadoop-Basis) und "DynamoDB" (Datenbank) könne Amazon nun den gesamten Big-Data-Workload in der Cloud verarbeiten, lobte Kelly.

Cloudera vs. Amazon: Lieber kooperieren statt konkurrieren

Matt Elson, Cloudera: Wir wollen Hadoop einfacher nutzbar machen."
Matt Elson, Cloudera: Wir wollen Hadoop einfacher nutzbar machen."
Foto: Cloudera

Die Aufforderung der Marktbeobachter, Cloudera müsse das Cloud-Umfeld intensiver beackern, kontert Elson mit dem Hinweis auf eine etablierte Amazon-Kooperation: Das eigene Hadoop-Framework laufe bei Bedarf auf Amazons Cloud-Plattform "EC2" und lassen sich mit Hilfe von Open-Source-Paketen wie OpenStack und Cloudstack rasch in die Cloud hieven. Das stehe jedem Partner frei. Zurzeit sei die Nachfrage nach Public-Cloud-Umgebungen aber begrenzt, weil Unternehmen ihre Big-Data-Projekte bevorzugt intern betreiben wollen.

Die Stärke des proprietären Hadoop-Frameworks soll die einfache Umsetzung einer technischen Umgebung sein, die eine Verarbeitung großer Datenmenge erlaubt. "Hadoop ist eine komplexe Technik", warnt der Manager. "Wir wollen sie einfacher nutzbar machen." Mit dem eigenen Produkt sei Hadoop nicht länger eine Lösung für einige Tausend Spezialisten, sondern für Millionen Anwender, die weder über Kenntnisse in der Java-Programmierung noch in der Datenbank-Administration verfügten. "Jeder kann Text-basierende Queries schreiben", wirbt Elson für die eigene Lösung.

Hadoop-Mastermind an Bord

Foto: Apache.org

Sicher scheint indes, dass Cloudera über das notwendige Fachwissen verfügt, um Hadoop beherrschen und weiterentwickeln zu können. Die drei Gründer haben allesamt umfangreiche Erfahrungen in Big-Data-Projekten. Amr Awadallah, Chief Technology Officer des Unternehmens, kommt von Yahoo. Der Internet-Konzern ist ein intensiver Nutzer des Hadoop-Frameworks. Mike Olson, Chief Strategy Officer, war zuvor bei Oracle und Sleepycat Software, Hersteller der "Berkeley DB". Jeff Hammerbacher, heute Chief Scientist bei Cloudera, kommt von Facebook. Dort soll das weltgrößte Hadoop-Cluster in Betrieb sein.

Später stieß noch Doug Cutting hinzu, der den bekannten gelben Elefanten zum Hadoop-Maskottchen machte. Er gilt als Spiritus Rector des Hadoop-Frameworks, weil er es initiierte und so weit vorantrieb, dass die Apache Software Foundation es in den Status eines Top-Level-Projekts hievte. Heute bekleidet Cutting die Rolle des Chief Architect bei Cloudera.

Impala macht Echtzeit-Analyse

Clouderas Impala-Funktion bietet Echtzeitanalyse (dargestell ist das Impala-Logo).
Clouderas Impala-Funktion bietet Echtzeitanalyse (dargestell ist das Impala-Logo).
Foto: Cloudera

Ausgezahlt hat sich für Cloudera das geballte Fachwissen unter anderem in dem Produkt "Impala", das vor rund einem Jahr auf dem Markt kam. Es erweitert das traditionelle Batch-basierende Processing von Hadoop um die Echtzeitverarbeitung. Mit dem Wissensvorsprung von einem Jahr in diesem Segment blickt Cloudera daher entspannt auf die Amazon-Anstrengungen rund um das Big-Data-Streaming. Ob die Gelassenheit von Dauer ist, bezweifelt zumindest Wibikon-Analyst Kelly: "Amazon hat die Größenverhältnisse umgekehrt und damit das Big-Data-Spiel verändert. Cloudera hat sich von einem Big Player in einen Small Player verwandelt."