Big Data macht den Spagat

Hybride Hadoop-Strategien richtig aufbauen

31.05.2016 von Björn Böttcher

Die Big-Data-Herausforderungen wachsen. Mit dem Einsatz von Hadoop werden die Data Lakes immer größer - On Premise wie in der Cloud. Nun gilt es, diese hybriden Infrastrukturen in den Griff zu bekommen.

Das Thema Big Data hat in den vergangenen Jahren viele Entscheider massiv getrieben. Cloudera, Hortonworks, MapR & Co. zogen in die Rechenzentren vieler deutscher Unternehmen ein und befüllen die Data-Lakes der Unternehmen. Parallel dazu werden immer mehr Cloud-Infrastrukturen genutzt, um neue Dienste zur erstellen und so entstehen auch in der Cloud zum Teil Data-Lakes. Die Frage ist, wie man effektiv und sinnvoll diese hybriden Welten verbinden kann und welche Einsatzszenarien einen Mehrwert und nicht nur mehr Aufwand bringen.

Flexible hybride Welten

Wenn man sich eine klassische Big-Data-Landschaft anschaut, dann stellt sich zunächst die Frage, wie man überhaupt ein hybrides Szenario abbilden kann. Schauen wir uns dazu die unterschiedlichen Ausprägungen einmal an.

Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud;
Multi-Environment Big Data: Big Data On-Premise und On-Cloud;
Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise;
Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise;
Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise;
Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud.

Bei diesem Szenario werden die kritischen Daten in der On-Premise Welt gehalten und nur weniger relevante Daten, wie beispielsweise Maschinendaten in der Cloud verarbeitet. Die wichtigen Informationen bleiben somit in der internen IT und verlassen nicht das Unternehmen. Die analytischen Modelle und Visualisierungen können direkt in der Cloud Plattform prozessiert werden und bieten somit die Vorteile, welche zum Beispiel auch Software-as-a-Service-Angebote mit sich bringen. Tools, Anwendungen und Modelle sind immer aktuell und können generisch von einer breiten Nutzergemeinschaft weiterentwickelt werden.

Crisp Research AG
Foto: Crisp Research AG, 2016

Multi-Environment Big Data: Big Data On-Premise und On-Cloud

Bei diesem Szenario werden alle Dienste und Daten in einem hybriden Modell verwendet. Besondere Schwierigkeiten macht hier die Ressourcenverwaltung. Beispielsweise kann zwar ein Hadoop-Cluster dynamisch mit Ressourcen aus der Cloud erweitert werden, die Frage stellt sich nur nach der Orchestrierung und der Bereitstellung der Daten. Die Orchestrierung kann man sicherlich über die dynamische Erweiterung des Rechenzentrums durch VPC (Virtual Private Cloud) erlangen. Die Daten sind allerdings nur dann sinnvoll in der Cloud nutzbar, wenn

die Daten auch zum Teil in der Cloud liegen und somit nah an der Anwendung,
die Datenmenge für die Jobs nicht besonders groß ist,
die Daten schnell zwischen den unterschiedlichen Umgebungen verschoben werden können.

Den letzteren Fall können lokale deutsche Rechenzentrumsbetreiber, wie zum Beispiel e-shelter, Equinix und Co. abbilden, da hier meistens On-Premise- und Public-Cloud-Umgebung nah beieinander liegen.

Crisp Research AG
Foto: Crisp Research AG, 2016

Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise

Ein weiteres Szenario bietet das Internet of Things (IoT). Sensoren, Logdateien, Kameras, Telemetriedaten und viele weitere Dinge kommunizieren viele Daten. Dabei ist das Wachstum der unstrukturierten Daten wesentlich größer als es das der strukturierten Daten jemals war. Damit diese Flut an Daten gebändigt werden kann, können Cloud-Plattformen helfen, dynamisch Streaming-Plattformen aufzubauen und flexibel mit Ressourcen zu erweitern. Auch eine Vorfilterung der Daten ist bereits in der Cloud möglich. Die fertigen Rohdaten selbst werden dann wiederum in der On-Premise-Landschaft abgelegt.

Crisp Research AG
Foto: Crisp Research AG, 2016

Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise

Wenn man die Hoheit über die Daten behalten möchte, aber dennoch möglichst flexible Anwendungen und Dienste entwickeln und bereitstellen möchte, dann kann man alle diese Aufgaben in die Cloud verlagern. So haben die Entwicklungs-, die BI- und die Leitungsteams vollen Zugriff auf die modernsten Verfahren und Technologien. Ebenso bietet dieses Szenario den Vorteil, dass ETL-Prozesse (Extract, Transform, Load) und die Verbindung zum Datawarehouse-System direkt von der Unternehmens-IT weiterhin betrieben werden kann und neue Kenntnisse nebenbei aufgebaut werden können. Denn gerade Administratoren für Hadoop-Cluster bilden derzeit eine sehr begehrte Ressource am Markt.

Crisp Research AG
Foto: Crisp Research AG, 2016

Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise

Ein weiteres Szenario hält die Daten in der Cloud. Dort kommen die Daten aus den IoT-Geräten sowieso schon an und die Verarbeitung durch viele verfügbare Ressourcen in der Cloud wird dadurch vereinfacht. Die Mehrwertdienste können in diesem Fall auf flexiblen Infrastrukturen in der On-Premise Landschaft entwickelt und getestet werden. So kann beispielsweise ein Data Scientist mit einem kleinen Datenauszug lokal im R Studio mit der Entwicklung beginnen. Nach einer ersten Sichtung und Analyse der Daten können dann die Modelle aus dem Bereich der künstlichen Intelligenz auf spezialisierter Hardware, wie zum Beispiel ein Cluster von Graphikkarten, mit Hilfe von "Spark" oder Deep-Learning-Algorithmen schnell entwickelt und modifiziert werden, bis das fertig trainierte Modell dann auf die Cloud-Umgebung portiert werden kann.

Crisp Research AG
Foto: Crisp Research AG, 2016

Aussichten am hybriden Hadoop-Himmel

Sinnvoll sind die hier aufgezeigten Szenarien je nach Anwendungsbereich und Industrieschwerpunkt. Unternehmen, welche zum Beispiel wenige Streaming-Daten erwarten, benötigen sicherlich kein Szenario für diesen Fall. Zu überdenken sind jedoch alle Szenarien, denn je nach Ausprägung bieten sie eine Spezialisierung und Freiräume für Entwickler, Administratoren, BI-Consultants, externe Dienstleister usw. Je nachdem, wie die Verlagerung der einzelnen Hadoop- beziehungsweise Big-Data-Funktionalitäten aussieht, ergibt sich somit durch eine scheinbar auftretende größere Komplexität in Wirklichkeit ein höherer Grad an Flexibilität und Spezialisierung. (ba)