Big Data macht den Spagat

Hybride Hadoop-Strategien richtig aufbauen

Björn Böttcher ist Senior Analyst und Data Practice Lead bei Crisp Research mit dem Fokus auf Analytics, BI, datenbasierte Geschäftsmodelle und Künstliche Intelligenz. Mit mehr als 10 Jahren Berufserfahrung in der IT und einem wissenschaftlichen Hintergrund und Fokus stehen moderne Lösungen mit praktischem Nutzen im Fokus seiner Betrachtung.

Die Big-Data-Herausforderungen wachsen. Mit dem Einsatz von Hadoop werden die Data Lakes immer größer - On Premise wie in der Cloud. Nun gilt es, diese hybriden Infrastrukturen in den Griff zu bekommen.

Das Thema Big Data hat in den vergangenen Jahren viele Entscheider massiv getrieben. Cloudera, Hortonworks, MapR & Co. zogen in die Rechenzentren vieler deutscher Unternehmen ein und befüllen die Data-Lakes der Unternehmen. Parallel dazu werden immer mehr Cloud-Infrastrukturen genutzt, um neue Dienste zur erstellen und so entstehen auch in der Cloud zum Teil Data-Lakes. Die Frage ist, wie man effektiv und sinnvoll diese hybriden Welten verbinden kann und welche Einsatzszenarien einen Mehrwert und nicht nur mehr Aufwand bringen.

Flexible hybride Welten

Wenn man sich eine klassische Big-Data-Landschaft anschaut, dann stellt sich zunächst die Frage, wie man überhaupt ein hybrides Szenario abbilden kann. Schauen wir uns dazu die unterschiedlichen Ausprägungen einmal an.

  • Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud;

  • Multi-Environment Big Data: Big Data On-Premise und On-Cloud;

  • Cloud-Streaming to Big Data: Streaming und Vorverarbeitung in der Cloud und Big Data On-Premise;

  • Cloud Add-on Big Data: Mehrwertdienste in der Cloud und Big Data On-Premise;

  • Big Cloud: Big Data in der Cloud und Mehrwertdienste On-Premise;

  • Flexible Big Data Analytics: Big Data On-Premise – Analytics On-Cloud.

Bei diesem Szenario werden die kritischen Daten in der On-Premise Welt gehalten und nur weniger relevante Daten, wie beispielsweise Maschinendaten in der Cloud verarbeitet. Die wichtigen Informationen bleiben somit in der internen IT und verlassen nicht das Unternehmen. Die analytischen Modelle und Visualisierungen können direkt in der Cloud Plattform prozessiert werden und bieten somit die Vorteile, welche zum Beispiel auch Software-as-a-Service-Angebote mit sich bringen. Tools, Anwendungen und Modelle sind immer aktuell und können generisch von einer breiten Nutzergemeinschaft weiterentwickelt werden.

Crisp Research AG
Crisp Research AG
Foto: Crisp Research AG, 2016

Multi-Environment Big Data: Big Data On-Premise und On-Cloud

Bei diesem Szenario werden alle Dienste und Daten in einem hybriden Modell verwendet. Besondere Schwierigkeiten macht hier die Ressourcenverwaltung. Beispielsweise kann zwar ein Hadoop-Cluster dynamisch mit Ressourcen aus der Cloud erweitert werden, die Frage stellt sich nur nach der Orchestrierung und der Bereitstellung der Daten. Die Orchestrierung kann man sicherlich über die dynamische Erweiterung des Rechenzentrums durch VPC (Virtual Private Cloud) erlangen. Die Daten sind allerdings nur dann sinnvoll in der Cloud nutzbar, wenn

  • die Daten auch zum Teil in der Cloud liegen und somit nah an der Anwendung,

  • die Datenmenge für die Jobs nicht besonders groß ist,

  • die Daten schnell zwischen den unterschiedlichen Umgebungen verschoben werden können.

Den letzteren Fall können lokale deutsche Rechenzentrumsbetreiber, wie zum Beispiel e-shelter, Equinix und Co. abbilden, da hier meistens On-Premise- und Public-Cloud-Umgebung nah beieinander liegen.

Crisp Research AG
Crisp Research AG
Foto: Crisp Research AG, 2016