Hadoop oder Data Stacks

Bausteine für eine erfolgreiche Datenanalyse

Björn Böttcher ist Senior Analyst und Data Practice Lead bei Crisp Research mit dem Fokus auf Analytics, BI, datenbasierte Geschäftsmodelle und Künstliche Intelligenz. Mit mehr als 10 Jahren Berufserfahrung in der IT und einem wissenschaftlichen Hintergrund und Fokus stehen moderne Lösungen mit praktischem Nutzen im Fokus seiner Betrachtung.

Normal 0 21 false false false DE X-NONE X-NONE /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Normale Tabelle"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-priority:99; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:11.0pt; font-family:"Calibri","sans-serif"; mso-ascii-font-family:Calibri; mso-ascii-theme-font:minor-latin; mso-hansi-font-family:Calibri; mso-hansi-theme-font:minor-latin; mso-fareast-language:EN-US;}
CIOs und IT-Manager müssen in Sachen Analytics eine Strategie wählen, die zur Unternehmenskultur und dem Geschäftsmodell passt. Hadoop und dedizierte Data Stacks haben dabei jeweils ihre eigenen Stärken.
  • Datenanalyse ist die wichtigste Disziplin im digitalen Zeitalter.
  • Unterschiedliche Betriebs- und Deployment-Szenarien ermöglichen die Umsetzung von erfolgreichen Use Cases.
  • Stackology und Hadoop sind beide für den Einsatz und die Erfüllung geeignet-

Datengetriebene Geschäftsmodelle sind für digitale Unternehmen ein wichtiges Standbein. Ohne die Daten über Produkte, Kunden, Lieferanten etc. geraten auch führende Unternehmen von heute schnell aufs Abstellgleis. Um das zu vermeiden, müssen sie frühzeitig Initiativen ergreifen werden. Data Analytics sind dabei ein wichtiger Bestandteil der Unternehmens-DNA, die mit der Demokratisierung von Daten einhergeht - denn Daten sind das Produkt.

Hadoop implementieren oder einen dedizierten Data Stack nutzen: IT-Verantwortliche haben für ihre Analytics-Strategie zahlreiche Optionen.
Hadoop implementieren oder einen dedizierten Data Stack nutzen: IT-Verantwortliche haben für ihre Analytics-Strategie zahlreiche Optionen.
Foto: Skintone studio - shutterstock.com

Hadoop-Ökosystem entwickelt sich stetig weiter

Bereits im Jahr 2008 erblickte Hadoop das Licht der Welt. Doug Cutting war der Vater, der mit seinem Team bei Yahoo! damals die Leistung vollbrachte, große Datenmengen mit sehr vielen Maschinen in viel kürzerer Zeit analysieren zu lassen. Seitdem ist viel Zeit vergangen und Hersteller, Anwender und die Open-Source-Community haben viel Energie in die aufkeimende Technologie gesteckt. Bis heute hat sich daraus ein stetig wandelndes System entwickelt, das mittlerweile die Anforderungen von allen Unternehmen erfüllen kann.

Testen Sie Ihr IoT-Grundwissen

Die Integration in eine Unternehmenslandschaft war nicht von Anfang an gegeben. Viele sicherheitsrelevante und Governance und Compliance betreffende Tools mussten erst noch geschaffen oder implementiert werden. Über die Jahre hat sich so ein System entwickelt, das viele Anforderungen von Unternehmen mit Hilfe unterschiedlichster Technologien abbilden kann. Die diversen Akteure haben sich dabei im Kontext der Digitalisierung entwickelt. Somit bietet ein Hadoop-System heute innerhalb des eigenen Rechenzentrums oder auch in der Cloud einen guten Startpunkt für das Entwickeln neuer digitaler Geschäftsmodelle.

Der Einsatz von Hadoop im Unternehmen betrifft viele verschiedene Stakeholder.
Der Einsatz von Hadoop im Unternehmen betrifft viele verschiedene Stakeholder.
Foto: Crisp Research AG, 2017

Jede Menge Stacks - der Zoo im RZ wächst

Sogenannte Stacks sind momentan der Renner in der Architektur von IT- und Applikationslandschaften. Technologie-Stacks, Architektur-Stacks, Big-Data-Stacks, IoT-Stacks: Überall laufen einem diese Stacks über den Weg und es prägt sich der Begriff der Stackology. Solche Stacks sind damit der Gegenpol zu großen Hadoop-Installationen. Wie man bei Protaginsten etwa des IoT-Stack vermuten kann, sind viele bereits auf bestimmte Anwendungsszenarien zugeschnitten. Für echtzeitnahe datengebundene Anwendungen beispielsweise gibt es entsprechend unterschiedliche Stacks, bei denen die Akronyme der verwendeten Tools - oftmals aus dem Open-Source-Bereich stammend - den Namen bestimmen.

SMACK ist einer dieser Stacks, der mit Apache Spark, Apache Mesos, Akka, Apache Cassandra und Apache Kafka für skalierbare Echtzeitanalysen konzipiert wurde. Für die gezielte Analyse von Zeitreihendaten im IoT-Zeitalter gibt es beispielsweise den TICK-Stack (Telegraf, InfluxDB, Chronograf, Kapacitor). So können sich Unternehmen je nach Anwendungsszenario die entsprechenden Stacks innerhalb des Unternehmens aufbauen und zielgerichtet einsetzen. In der Folge setzen sich die Data Stacks dann aus unterschiedlichen "Silos" zusammen, die dann jeweils unterschiedliche Anwendungsfälle adressieren, wie zum Beispiel:

  • Batchverarbeitung,

  • Streaming-Datenverarbeitung,

  • Zeitreihenanalyse,

  • Business Intelligence,

  • Predictive Maintenance.

Diverse verfügbare Stacks bieten jeweils anwendungsbezogene Komponenten.
Diverse verfügbare Stacks bieten jeweils anwendungsbezogene Komponenten.
Foto: Crisp Research AG, 2017

Für den CIO und den RZ-Leiter ergibt sich damit die Frage, ob und wenn ja wie all diese Stacks in das eigene Rechenzentrum einziehen müssen. Denn die Verwaltung und Wartung dieser vielen zum Teil heterogenen Stacks ist sicherlich kein Zuckerschlecken. Sie müssen entsprechend sicher und performant bereitgestellt werden und der Betrieb und die Wartung müssen möglichst einheitlich abgebildet werden.

Auch im Hadoop-Umfeld ist die Cloud gesetzt

Hybrid- und Multi-Cloud Modelle stehen bei den Unternehmen momentan hoch im Kurs. Und auch auf Seiten der Anbieter gibt es zunehmend mehr Support und Integration aus, in und mit der Cloud. So bietet die kürzlich erschienene Version 2.8 von Hadoop viele Updates und Neuerungen im Bereich Cloud und Sicherheit. Darunter finden sich beispielsweise die Unterstützung beziehungsweise optimierte Unterstützung von Microsoft- und AWS-Object-Storage-Angeboten zur Nutzung als Data Lake. Und auch die strömenden Unternehmensdaten können zunehmend hybrid analysiert werden. So stellte beispielsweise Hortonworks gerade die Version 3.0 seiner Open-Source-Data-in-Motion-Plattform Hortonworks DataFlow (HDF) vor, mit der genau dies möglich ist.

Welche Strategie kommt in Frage?

Für Unternehmen gibt es keine generelle Antwort auf die Frage nach der richtigen Strategie. Denn jede Organisation geht anders in die digitale Welt. Je nachdem, wie Daten analysiert und eingesetzt werden, kann die eine oder andere Strategie effizienter und kostenbewusster sein.

Geht es etwa um Szenarien, in denen nur fließende Daten analysiert werden sollen, auf die dann reagiert werden muss, können Stacks sinnvoller sein. Sind viele große Business Units mit unterschiedlichen Anforderungen und Fragestellungen an einer Datenanalyse interessiert, rechnet sich sicherlich die Investition in Hadoop-Installationen im On-Premise- oder im Cloud-Umfeld. Die Handlungsempfehlungen lauten demnach:

  • Anwendungsfelder scannen

  • Anforderungen bestimmen

  • Business Units / Fachabteilungen und IT mit ins Boot holen

  • Bedarf kalkulieren

  • Auswahl treffen