Datenanalyse als Service

Die wichtigsten Big-Data-Tools aus der Cloud

14.03.2016
Von Thomas Hafen

Google Cloud Platform

Das Google-Angebot an Big-Data-Services ist sehr umfangreich. Neben Open-Source-Lösungen wie Hadoop gehören dazu auch von Google selbst entwickelte Produkte wie BigQuery oder Dataflow. Für Hadoop bietet Google einen "Cloud Launcher", mit dem sich nach Angaben des Providers in wenigen Minuten ein Cluster zur verteilten Big-Data-Analyse aufbauen lässt. Es besteht aus drei virtuellen Maschinen (n1-standard-4) inklusive 10 GB Boot Disk sowie drei Standardspeicherplatten mit 500 GB Kapazität. Die installierte Hadoop-Version 2.4.1 ist allerdings nicht ganz auf der Höhe der Zeit. Die neueste stabile Version von Hadoop hat die Versionsnummer 2.7.1.

In Google Dataflow werden Abfragen als sogenannte Pipelines definiert.
In Google Dataflow werden Abfragen als sogenannte Pipelines definiert.

Weitere Big-Data-Lösungen lassen sich ebenfalls mit wenigen Klicks per Launcher installieren, darunter hoch skalierbare Datenbanken wie Cassandra, MongoDB und Redis sowie Elasticsearch, ein Open-Source-Tool zur Echtzeitanalyse. Elasticsearch ist aber nicht die einzige Möglichkeit für die Echtzeitanalyse auf der Google-Plattform: Eine weitere ist die Kombination aus dem Cluster-Manager Kubernetes, der In-Memory-Datenbank Redis und dem Abfragesystem BigQuery. In der zweiten Variante können Anwender Kubernetes und BigQuery mit Pub/Sub verknüpfen, einem Real-Time-Messaging-System. Für Logging-Zwecke lässt sich BigQuery schließlich auch noch mit dem Open-Source-Datensammler Fluentd kombinieren.

Mit dem Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.
Mit dem Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.

Im Jahr 2014 hat Google außerdem den Big-Data-Service "Cloud Dataflow" gestartet. Google Cloud Dataflow erlaubt die Analyse großer Datenmengen sowohl im Batch- als auch im Streaming-Modus nahezu in Echtzeit. Der Code ist für beide Methoden gleich, die Entscheidung trifft der Entwickler durch die Wahl der Datenquelle. Die Programmierung ist sehr einfach. Für die Analyse muss ein Entwickler die logischen Schritte nur in eine Sequenz simpler Befehle übersetzen. Um zum Beispiel ein Zeitfenster für eine Streaming-Analyse zu definieren, genügt eine Zeile Code. Google verspricht außerdem eine Skalierbarkeit bis in den Exabyte-Bereich und eine nahtlose Integration in andere Systeme.

Die Google Cloud-Services lassen sich 60 Tage lang testen. Der Anbieter stellt dafür ein Guthaben von 300 Dollar zur Verfügung.

Google Cloud Platform - Leistungsumfang Big-Data-Analyse

  • Cloud Launcher (Click to Deploy) unter anderem für Hadoop, Cassandra, MongoDB

  • Echtzeitanalyse mit Elasticsearch oder mit BigQuery in Kombination mit Kubernetes, Redis / Pub/Sub beziehungsweise Fluentd.

  • Cloud Dataflow: Managed Service für Batch- und Streaming-Analysen

Google Cloud Platform - Fazit

Pro

+ Einfache Installation von Hadoop-Clustern und anderen Big-Data-Lösungen

+ Cloud Dataflow erlaubt auch weniger erfahrenen Anwendern den Einstieg in die Big-Data-Analyse

Contra

- Im Cloud Launcher sind nicht immer die aktuellsten Versionen verfügbar