Turbolader für Hadoop

IBM setzt bei Big Data voll auf Apache Spark

Thomas Cloer war viele Jahre lang verantwortlich für die Nachrichten auf computerwoche.de.
Er sorgt außerdem ziemlich rund um die Uhr bei Twitter dafür, dass niemand Weltbewegendes verpasst, treibt sich auch sonst im Social Web herum (auch wieder bei Facebook) und bloggt auf teezeh.de. Apple-affin, bei Smartphones polymorph-pervers.
Aus Sicht von IBM ist Apache Spark "das möglicherweise wichtigste Open-Source-Projekt des nächsten Jahrzehnts".

Deshalb investiert "Big Blue" massiv in die quelloffene Big-Data Software. Der Konzern will Apache Spark in seine Analytics- und Commerce-Plattformen einbauen und Spark als Service im Rahmen der Entwickler-Plattform "Bluemix" über die IBM-Cloud (aus dem Zukauf von SoftLayer) anbieten. Mehr als 3500 IBM-Forscher sollen überdies in mehr als einem Dutzend Laboren an Spark-verwandten Projekten arbeiten, kündigt der Konzern heute an; außerdem überlässt IBM seine Machine-Learning-Technologie "SystemML" dem Spark-Ökosystem, eröffnet in San Francisco ein Spark-Technologiezentrum und will noch dazu "mehr als eine Million Data Scientists und Data Engineers" in Spark ausbilden.

IBM-Forscher bei einem Spark-Hackathon am Wochenende
IBM-Forscher bei einem Spark-Hackathon am Wochenende

Aus Sicht von IBM hat Spark zwei zentrale Vorteile: Es beschleunige die Leistung datenabhängiger Anwendungen dramatisch und vereinfache gleichzeitig den Entwicklungsprozess intelligenter, datengetriebener Apps radikal. Das angekündigte Spark-Investment des Konzerns bezifferte der Chef von IBMs Analytics-Geschäft, Senior Vice President Robert Picciano, gegenüber der "New York Times" mit "hunderten Millionen Dollar pro Jahr".

Speziell beim Machine Learning will IBM außerdem mit dem Startup Databricks zusammenarbeiten. Databricks hat mit knapp 50 Millionen Dollar finanzieller Rückendeckung von Andreessen Horowitz und New Enterprise Associates einen auf Spark basierenden Online-Dienst entwickelt, der heute anlässlich der Fachkonferenz Spark Summit in San Francisco allgemein zugänglich werden soll, wie das "Wall Street Journal" berichtet. Weitere Startups, die auf Spark setzen, sind das von früheren Facebook-Entwicklern gegründete Qubole sowie ClearStory Data.

Mit Hilfe von Spark serviert zum Beispiel der Visual-Bookmarking-Dienst Pinterest seinen Nutzern relevante Fotos oder ermittelt Airbnb Preise für seine Privatvermietungen. Es arbeitet dabei deutlich schneller als die Kernkomponente MapReduce des ähnlich gelagerten Open-Source-Projekts Hadoop und ist damit besonders nützlich für den Umgang mit gerade erst angefallenen "Echtzeit"-Daten. Auch Hadoop-Spezialisten wie Hortonworks oder Cloudera haben Spark deswegen bereits in ihre Produktlinien übernommen.

"Jeder der künftig Daten nutzt, wird auf Spark zurückgreifen", ist sich Rob Thomas sicher, Vice President für die Produktentwicklung von IBM Analytics. Innerhalb der Tool-Sammlung Hadoop hat Spark in vielen Fällen wohl das Zeug dazu, MapReduce zu verdrängen, wenn es um die Analyse von Datenströmen aus beispielsweise Industriesystemen, Twitter, Fitness-Trackern, Online-Werbeauktionen, Wetterstationen und ganz allgemein dem "Internet der Dinge" (Internet of Things, IoT) geht.

"Wenn man MapReduce gegen Spark austauscht ist das wie ein Auto, das ein Fahrrad ersetzt", kommentiert Christopher Nguyen, Chef des Startups Adatao, das auf Basis beider Technologien eine Softwareplattform für datengetriebene Entscheidungsfindung anbietet. Stefan Groschupf, CEO von Datameer (dessen Software auf Hadoop basiert), hält Spark indes bislang noch nicht für zuverlässig genug für den Unternehmenseinsatz und mutmaßt, dass es noch von anderer aufkommender Software verdrängt werden könnte. "Es gibt verschiedene Anbieter, die dem Gesamtmarkt schaden, indem sie die Leute an ihre Produkte zu ketten versuchen", so Groschupf.

Erdacht wurde Spark von Matei Zaharia, der damit in seiner Zeit als Doktorand an der University of Berkeley - das dortige AMPLab wurde übrigens von IBM gesponsert - 2010 Limitierungen von Hadoop ausräumen wollte. Sein Doktorvater Scott Shenker erzählte dann 2013 dem Venture-Kapitalisiten Ben Horowitz von der Software und titulierte Zaharia dabei als den besten Informatiker in Berkeley seit zehn Jahren. Shenkers voriger Tipp für Horowitz war Nicira Networks gewesen, zu dessen Gründern der Vordenker der Netzvirtualisierung Martin Casado gehörte und das 2012 für 1,26 Milliarden Dollar verkauft wurde. "Er sagte: 'Dieser Typ ist der Martin Casado des Big Data'", erinnert Horowitz das Gespräch mit Shenker, das dann in der Gründung von Databricks mündete - Matei Zaharia ist dort Chief Technology Officer (CTO).

Bis die breite Masse der Oracle-Anwender zu dem Schluss komme, dass sie Sparc für ihr Business bräuchten, werde aber noch einige Zeit vergehen, vermutet der Gartner-Analyst Nick Heudecker: "Hadoop war nicht die erste Datenplattform - und Spark wird nicht die letzte sein." Klar ist aber auch: Das massive Engagement von IBM wird dazu beitragen, die Akzeptanz von Echtzeit-Big-Data zu beschleunigen.

Die Technologie werde es möglich machen, "das Versprechen von Big Data wirklich einzulösen", sagt IBM-Manager Picciano. Natürlich auch in der Hoffnung, mit dem Spark-Engagement mehr Entwickler für die eigenen Big-Data-Werkzeuge zu gewinnen. "Zuvorderst ist das ein Spiel um die Köpfe - und die Herzen - der Developer", sagt IDC-Analyst Dan Vesset. Spark ist gleichzeitig ein guter Unterbau für IBMs Geschäftsmodell. "IBM verdient sein Geld weiter oben [in der Wertschöpfungskette] mit Lösungen für Kunden", kommentiert der Forrester-Analyst Mike Gualtieri. "Und deswegen ist dies [Spark-Engagement] letztlich auch sinnvoll."