Hadoop bekommt Konkurrenz

Analytics- und Big Data-Software: Der Markt ist reifer geworden

Wolfgang Herrmann ist seit März 2013 Chefredakteur des TecChannel. Zuvor war er stellvertretender Chefredakteur der TecChannel-Schwesterpublikation COMPUTERWOCHE. Zu seinen thematischen Schwerpunkten gehören Cloud Computing, Data Center, Virtualisierung und Big Data. Er studierte Betriebswirtschaft und arbeitete unter anderem für den Vogel Verlag, den PC Magazin Verlag und die Suse Linux AG.
Der Markt für Big-Data- und Analytics-Lösungen ist gereift, die Datenqualität in einschlägigen Projekten steigt. Zugleich kämpfen immer mehr Unternehmen mit der schieren Masse gespeicherter Daten. Zu diesen Ergebnissen kommt eine internationale Erhebung des Marktforschungsunternehmens Evans Data Corp.

"Big Data hat sich zu einem reifen Markt für 'echtes Data Processing' entwickelt", schreibt Analyst Scott M. Fulton, III in der Studie "Big Data and Advanced Analytics Survey 2015, Volume II". Obwohl das Open-Source-Framework Hadoop in diesem Kontext noch immer die wichtigste Plattform sei, gebe es inzwischen auch eine Reihe neuer Konzepte und Techniken, die ähnliche oder ergänzende Ziele verfolgten. Dazu gehören für den Experten etwa die Open-Source-Projekte Spark und Hydra oder das auf Cloud-Umgebungen ausgerichtete File System Gluster.

Hadoop ist längst nicht mehr die einzige wichtige Open-Source-Plattform für Big-Data-Projekte.
Hadoop ist längst nicht mehr die einzige wichtige Open-Source-Plattform für Big-Data-Projekte.
Foto: ASF

Die wesentlichen Treiber für Investitions- und Architekturentscheidungen im Big-Data-Kontext, die einst schon Hadoop zum Durchbruch verhalfen, sind laut Fulton aber noch immer aktuell:

  • Volumen: Die schiere Menge der Daten aus unterschiedlichen Quellen, die für eine Anfrage relevant ist, übersteigt die Kapazität physischer Speichersysteme. Das Management der Datenberge wird durch Virtualisierung nicht unbedingt leichter.

  • Vielfalt: Die Vielzahl der Datenquellen, die für moderne Reports heute relevant sind, lässt sich mit konventionellen Data Warehouses nicht mehr managen.

  • Geschwindigkeit: Neue Daten entstehen in hohem Tempo, zugleich wächst die Geschwindigkeit, in der ältere Daten irrelevant werden. Das zwingt Organisationen, ihre bestehenden Reporting-Strukturen in kleinere Teile aufzubrechen.

  • Sichtbarkeit: Ergebnisse, die in Echtzeit oder nahezu in Echtzeit aufbereitet werden, geben Organisationen tiefere und wertvollere Einblicke in ihre Prozesse, als dies mit klassischen, meist auf Batch-Verfahren ausgelegten relationalen Datenbanksystemen möglich ist.

Das Marktforschungsunternehmen Evans Data Corporation mit Sitz im kalifornischen Santa Cruz befragt regelmäßig ein Panel von rund 75.000 Softwareentwicklern aus mehr als 85 Ländern. Für die aktuelle Studie interviewten die Analysten 529 Entwickler, die gegenwärtig mit Datenbanken und Analytics-Systemen arbeiten und in den kommenden zwölf Monaten verstärkt Big-Data- oder fortgeschrittene Analytics-Projekte verfolgen wollen. Dabei stellten die Auguren auch die Frage, welche Abteilungen der betreffenden Unternehmen bereits Data-Analytics- oder Big Data-Lösungen einsetzen.

Analytics-Einsatz: IT, Logistik und Marketing sind Vorreiter

Den größten Zuwachs im Vergleich zur Erhebung im Vorjahr verzeichnete dabei der Bereich "Logistics / Distribution / Operations". Gut 42 Prozent der Umfrageteilnehmer berichteten von Projekten in diesen Abteilungen. Am häufigsten scheint das Thema noch immer direkt in der IT-Abteilung angesiedelt zu sein (von 45 Prozent genannt). Mit etwas Abstand folgen mehrere kundennahe Unternehmensbereiche. Dazu gehören laut Evans sowohl Marketing und Kundenservice als auch die klassische Sales-Abteilung. Daneben setzen auch Bereiche wie Buchhaltung / Finanzen, Forschung und Entwicklung sowie Human Resources bereits auf Analytics-Systeme.

Die größten Probleme mit Big Data

Im nächsten Schritten legten die Marktforscher den Entwicklern eine Liste mit neun potenziellen Problemen vor, mit denen Organisationen im Rahmen von Big-Data-Projekten konfrontiert werden könnten. Die Befragten sollten angeben, welches jeweils die größte Hürden in ihren aktuellen Projekten sind. Etwas überraschend steht für ein Viertel der Interviewten das Volumen der in den Storage-Systemen abgelegten Daten an erster Stelle. Der Prozentwert habe sich im Vergleich zur Vorjahreserhebung mehr als verdoppelt, berichtet Evans. 2014 rangierte dieser Punkt noch auf Platz vier der größten Big-Data-Probleme.

Passend zum Thema: Blue Box – die „Alles-Easy-Private Cloud“?

Blue Box – die „Alles-Easy-Private Cloud“? - Foto: Nmedia_Fotolia.com

Problematisch empfinden viele Entwickler offenbar auch die Relevanz der gewonnen Daten, gefolgt vom Volumen derjenigen Daten, die tatsächlich verarbeitet werden. Fortschritte gab es hingegen beim Thema Datenqualität. Dieser Aspekt stand vor einem Jahr noch ganz oben auf der Liste und ist nun auf Platz vier gerutscht. Während sich die Qualität von Analytics-Prozessen insgesamt zu verbessern scheine, werde das Thema Datenvolumen für die Unternehmen offenbar wieder zum Problem, kommentiert Analyst Fulton.

Realtime Analytics gewinnt an Bedeutung

An Bedeutung zugenommen hat für die Befragten die Datenanalyse in Echtzeit. Evans bat die Entwickler hierzu, auf einer Skala von 1 ("total irrelevance") bis 10 ("total relevance") einzustufen, wie wichtig das Thema Realtime Analytics für ihre Organisation ist. Daraus ergab sich ein relativ hoher Durchschnittswert von 8,056. Im Vergleich zum Vorjahr bedeutet das den Angaben zufolge eine Steigerung um 3,2 Punkte.

Big Data wandert in die Public Cloud

Mit den wachsenden Big-Data-Angeboten der großen Cloud-Player steigt auch die Akzeptanz für Analytics-Anwendungen in der Wolke, so eine weitere Beobachtung der Marktforscher. Sie meinen damit explizit Public-Cloud-Angebote, auch wenn in der Praxis Hybrid-Cloud-Szenarien dominieren. Analyst Fulton verweist darauf, dass der Public-Cloud-Vorreiter Amazon bereits 2009 mit Elastic MapReduce auf den Markt gegangen sei. Dabei handelt es sich um einen Web-Service, der das Open Source-Framework Hadoop nutzt. Unternehmen sollen damit große Datenmengen schnell und kostengünstig verarbeiten können.

Doch Amazon beziehungsweise Amazon Web Services (AWS) ist längst nicht mehr der einzige Big-Data-Anbieter in der Public Cloud. Auch Google offeriert schon seit geraumer Zeit Public-Cloud-Erweiterungen für Hadoop-Installationen. Im September 2015 stellte der Suchmaschinenkonzern zudem den Managed Big-Data Service Cloud Dataproc vor. Anwender sollen damit einfach und schnell Hadoop- und Spark-Cluster in der Cloud einrichten, verwalten und wieder abschalten können. Last, but not least ist auch Microsoft in den Ring gestiegen und nutzt die starke Marktstellung seiner relationalen Datenbank SQL Server, um mit Azure HDInsight seine eigene Hadoop-Variante in der Cloud zu promoten.

Mit Google Dataproc sollen Unternehmen Hadoop- und Spark-Cluster in der Cloud einrichten können.
Mit Google Dataproc sollen Unternehmen Hadoop- und Spark-Cluster in der Cloud einrichten können.
Foto: Google

Security und Integration bremsen Analytics in der Cloud

Dessen ungeachtet gibt es, wie in anderen Cloud-Anwendungsfeldern auch, ernstzunehmende Argumente gegen Big-Data-Lösungen in der Cloud: Aus einer Liste von vier "Hemmnissen" ließ Evans Entwickler die jeweils wichtigste auswählen - unabhängig von deren tatsächlicher Praxiserfahrung mit Cloud-basierten Analytics-Plattformen. Kaum überraschend steht das Thema Sicherheit in der Liste ganz oben (von 40 Prozent genannt).

Erheblich häufiger als in vorangegangenen Erhebungen nannten die Befragten aber auch die schwierige Integration einschlägiger Services. Angesichts der wachsenden Bedeutung von Public-Cloud-Lösungen sei dies ein besonders sensibler Aspekt, kommentieren die Marktforscher. Eine anderes Hindernis habe sich dagegen etwas relativiert: Deutlich weniger Entwickler als noch vor einem halben Jahr fürchteten einen Kontrollverlust, wenn sie Daten in der Cloud analysieren lassen. (wh)