Deshalb scheitern 60 Prozent der Big-Data-Projekte

Hadoop ist ein komplexes Biest

Harald Weiss ist Fachjournalist in New York und Mitglied bei New York Reporters.
Big-Data-Projekte werden häufig als Universal-Lösung für alle aktuellen Business-Probleme angesehen. Kernstück dieser Projekte ist immer häufiger Hadoop. Doch damit ist diese Technologie weit überfordert - entsprechend groß sind die Projektpleiten.
Nicht alle Anwender haben mit Hadoop positive Erfahrungen gemacht.
Nicht alle Anwender haben mit Hadoop positive Erfahrungen gemacht.
Foto: ASF

Vor rund zehn Jahren wurde Hadoop bei Yahoo erstmals in einer Produktionsumgebung eingesetzt. Seit dem hat diese OpenSource-Software mit ihrer effizienten Kombination von unstrukturierter Datenspeicherung und schneller Datensuche eine stürmische Entwicklung durchlaufen. Ob Social Media, Big-Data-Analytics oder Search-Engine - nahezu überall wird mit Hadoop zumindest experimentiert. Laut einer Umfrage von Dell sind bei fast allen Fortune-500-Unternehmen Hadoop-Projekte in irgendeiner Form im Einsatz. Die Marktforscher von Forrester gehen davon aus, dass die Hadoop-Nutzung in diesem oder im nächsten Jahr ein Top-Fokus bei allen IT-Abteilungen sein wird.

"Nicht für Prime-Time-Einsatz"

Doch nicht überall verlaufen die Pilot- oder Einführungsprojekte so erfolgreich, wie es die Anbieter gerne darstellen. "Hadoop basiert auf massiver Parallelverarbeitung; das ist eine total andere Verarbeitungsstruktur als man es von den sequentiellen Prozessen der klassischen IT her kennt und das macht das Einrichten und Betreiben der Hadoop-Cluster so komplex", sagt Michael Walker, Partner bei Rose Business Technologies, ein auf Big Data spezialisiertes Beratungsunternehmen.

Beispielsweise berichtet die Bank of New York, dass man von den ursprünglich hohen Erwartungen inzwischen weit entfernt sei. Dort wurde eine Hadoop-Lösung eingerichtet, um Probleme mit dem Börsenhandels-System zu entdecken und einzukreisen. "Im kleinen Testrahmen lief alles wunderbar, doch als wir es firmenweit einführten und viele Mitarbeiter gleichzeitig darauf zugriffen, gab es massive Probleme", schildert deren Chief Data Officer, David Gleason. Er hat inzwischen alle Pläne für einen Hadoop-Einsatz im Produktions-Umfeld verschoben. "Die Skalierung von Hadoop ist äußerst komplex, meiner Einschätzung nach ist das Produkt noch nicht reif für den Prime-Time-Einsatz", lautet sein Urteil. Glenda Crisp, verantwortlich für Analytics und Enterprise Data bei der kanadischen TD Bank, hat ähnliche Erfahrungen gemacht - drückt es aber höflicher aus: "Es ist immer riskant, wenn man neue Technologien in eine komplexe Organisation einbringt."

Mehr Glaube als Realität

Bei den Analysten ist man mit den Meinungen deutlicher. "Hadoop ist ein komplexes Biest. Es scheint, dass der Glaube daran größer ist, als dessen technische Möglichkeiten", urteilt Gartners Research Director Nick Heudecker.

Digital Leader aufgepasst! - Foto: IDG

Digital Leader aufgepasst!

Er sieht als Ursache dafür vor allem fundamentale Systemschwächen. "Hadoop wurde für das indexieren von Webseiten entwickelt, doch das ist kein adäquater Ausgangspunkt für die Analyse von Business-Problemen", lautet seine Kritik. Einen besonderen Unterschied sieht er vor allem darin, dass bei allen großen Unternehmen eine heterogene IT-Infrastruktur anzutreffen ist. "Es erfordert viel Knowhow und Zeit um Hadoop mit Legacy-Anwendungen und deren strukturierten Daten zu verbinden - doch genau das ist es, was bei Großunternehmen gefordert wird", führt er weiter aus.

Skepsis im Hadoop-Lager

Auch andere Anbieter im Hadoop-Umfeld stehen der rasant zunehmenden Euphorie kritisch gegenüber. "Bei Hadoop ist noch viel Hype im Spiel. Viele glauben, dass es eine schnelle Lösung für alle Datenprobleme bietet - doch das ist nicht so. Die Realität ist die, dass Hadoop eine sehr komplexe Technologie ist, die sich noch in den Kinderschuhen befindet und nur von sehr erfahrenen Experten beherrscht wird", sagt Kelly Stirman, Produkt-Marketing-Chef bei 10gen.

Ähnlich sieht es Ashish Thusoo, CEO von Qubole. "Der Anteil der fehlgeschlagen Hadoop-Projekten ist erstaunlich groß, was meiner Ansicht nach vor allem an der Komplexität des Produktes und dem mangelnden Knowhow bezüglich der Implementation und dem Tuning großer Hadoop-Cluster liegt." Concurrents CEO Gary Nakamura sieht bereits die Stunde der Wahrheit für Hadoop heraufziehen. "2015 ist das Jahr, in dem die Hadoop-Projekte beweisen müssen, dass sich ihr Einsatz lohnt, entweder in dem Aufgaben von Legacy-Anwendungen übernommen werden konnten oder in Form von neuen Big-Data-Lösungen, die man anders nicht hätte angehen können."

Das scheint das Gebot der Stunde zu sein, denn selbst die Unternehmen, die sich vollends auf Hadoop verschrieben haben, berichten von harten wirtschaftlichen Zeiten. Nach dem der Hadoop-Spezialanbieter Hortonworks im vorigen Jahr erstmals seine Geschäftszahlen veröffentlichen musste, stellte sich heraus, dass statt der angekündigten 100 Millionen Dollar Jahresumsatz, nur 33 Millionen Dollar in neun Monaten umgesetzt wurden.

Diese vier Punkte sind zu beachten

Dells Software-Entwicklungschef Guy Harrison spricht bereits von einer Hadoop-Katerstimmung, und er glaubt, der Sache auf den Grund gekommen zu sein. "Das Programmieren von Hadoops MapReduce ist vergleichbar mit der Programmierung in Assembler: Großer Funktionsumfang, aber kompliziert und aufwendig", sagt er über die Nutzungsprobleme von Hadoop.

Weitere Gründe für die hohe Misserfolgsrate dieser Projekte sind seiner Ansicht nach:

  • Mangelhafte Sicherheit
    Hadoop wurde für die Internet-Suche entwickelt, also für die Verarbeitung von öffentlich-zugänglichen Informationen - nicht für Firmengeheimnisse oder persönliche Daten.

  • Backup-Probleme
    Nur die MapR-Distribution verfügt über ein Snapshot-Feature.

  • Primitive Ressourcen-Verwaltung
    Es entstehen beispielsweise erst jetzt Funktionen, mit denen Adhoc-Anforderungen abgeblockt werden können, um geschäftskritische Prozesse nicht zu gefährden.

  • Fehlende On-Line-Features.

"Viele dieser Schwächen sind zwar allgemein bekannt, doch sie werden immer wieder ignoriert, sodass sich erst bei einem fortgeschrittenen Projektverlauf die zugehörigen Probleme einstellen", berichtet Harrison über seine Erfahrungen mit Kunden.

Schlechte Aussichten

Man soll aber nicht glauben, dass Hadoop das einzige Sorgenkind im Bereich Big Data ist. Auch andere Projekte leisten bei weitem nicht das, was man sich davon versprochen hat - und dieser Trend wird weiter anhalten. Laut Gartner werden in den nächsten zwei Jahre 60 Prozent aller Big-Data-Projekte nicht über den Pilotstatus hinaus kommen. "Es werden wesentlich mehr Projekte erfolglos eigestellt, als erfolgreiche Projekte in Betrieb genommen", sagt Gartner Research Director Svetlana Sicular.