Big-Data-Service aus der Cloud

Google Cloud Dataproc hilft beim Management von Hadoop- und Spark-Clustern

25.09.2015
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Mit Cloud Dataproc hat Google einen neuen Managed Big-Data Service vorgestellt. Anwender sollen damit schnell Hadoop- und Spark-Cluster in der Cloud einrichten verwalten und wieder abschalten können.

Google baut sein Big-Data-Portfolio in der Cloud weiter aus. Mit Hilfe des Managed Service „Cloud Dataproc“ will der Internet-Konzern Anwendern helfen, Hadoop- und Spark-Cluster aufzusetzen, zu verwalten und auch wieder zügig abzuschalten, wenn sie nicht mehr gebraucht werden. Anwender hätten damit weniger Aufwand für die Administra­tion ihrer Big-Data-Infrastruktur und könnten sich mehr mit den Daten beschäftigen, argumentiert Google.

Im Vordergrund steht die Geschwindigkeit des Big-Data-Dienstes: Müssten Nutzer im Rahmen lokaler Installationen beziehungsweise via Infrastructure as a Service (IaaS) bis zu 30 Minuten für die Bereitstellung entsprechender Cluster einkalkulieren, funktioniere dies mit Hilfe von Dataproc innerhalb von 90 Sekunden, verspricht der Anbieter. Der Managed Service lässt sich mit anderen Cloud-Diensten von Google verknüpfen – etwa mit Big Query, Cloud Storage, Cloud Bigtable, Cloud Logging und Cloud Monitoring. Das Management der Cluster funktioniert über die Goo­gle Developers Console, das Cloud SDK des Providers oder die REST API von Cloud Dataproc. Sämtliche durch Hadoop und Spark unterstützten Programmiersprachen wür­den Google zufolge auch von Cloud Dataproc bedient, beispielsweise Java, Scala, Python und R.

Cloud Dataproc liegt momentan im Betastadium vor. Der Preis beträgt einen US-Cent je Stunde pro virtuelle CPU im Cluster. Im Rahmen spezieller Instanzen könne der Dienst ab einem Minimum von zehn Minuten sogar minutengenau abgerechnet werden.