Dreamteam der IT

Traumpaar Cloud und Big Data

20.06.2013
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Cloud und Big Data könnten das neue Dreamteam der IT werden. Gerade wenn es um das Handling großer Datenmengen geht, bieten skalierbare und flexible Cloud-Lösungen eine interessante Alternative.

Drohten Datenspeicher überzulaufen, gab es in der Vergangenheit meist nur ein Mittel: Anwender mussten zusätzliche Festplattenkapazitäten in ihre Rechner einbauen. Doch gerade in heterogenen und unübersichtlichen IT-Umgebungen führt die Strategie, Storage-Engpässe in Feuerwehrmanier mit zusätzlicher Hardware zu bekämpfen, meist zu wenig effizienten Speicherlandschaften. Während an der einen Stelle immer wieder die Alarmglocken schrillen, schlummern an anderer Stelle oft nicht genutzte Ressourcen, die der Administrator mangels Überblicks nicht auf dem Schirm hat.

Speicher online

Mit Hilfe der Cloud lassen sich Storage-Probleme heute schneller und eleganter lösen. Speicherdienste wie Dropbox, Google Drive oder Microsofts Skydrive bieten zudem noch weitere Vorteile: Der Internet-Speicher schafft nicht nur zusätzliche Kapazität, sondern auch die Möglichkeit, Daten mit anderen Nutzern auszutauschen und zu teilen. Zudem können die User von verschiedenen Orten aus mit unterschiedlichen Endgeräten auf den Netzspeicher zugreifen.

Was für viele Privatanwender bereits gang und gebe ist, bereitet Administratoren jedoch mehr und mehr Sorgen. Nutzer, die privat die Vorteile von Dropbox und Co. zu schätzen gelernt haben, schleppen die Dienste zunehmend auch in die Unternehmen ein - hinter dem Rücken der IT-Abteilungen. Doch während man sich bei Urlaubsfotos oder der neuen Hausordnung für die Schrebergartensiedlung meist keine Gedanken um die Sicherheit der Daten machen muss, sieht es bei Firmeninformationen, die via Dropbox über die Fachabteilungen hinweg verteilt und ausgetauscht werden, ganz anders aus.

Daten sind sensibel

Für sensible Unternehmensdaten gelten eigene Regeln. Gerade wenn es um personenbezogene Daten wie Kundeninformationen geht, müssen gesetzliche Vorgaben eingehalten werden. Wer solche Informationen ohne nachzudenken in einen beliebigen Online-Speicher verschiebt, kann sich großen Ärger einhandeln.

Um dem zu entgehen, bieten sich speziell auf Business-Anforderungen hin angepasste Cloud-Speicher an. Diese garantieren beispielsweise, die Daten innerhalb Europas beziehungsweise Deutschlands aufzubewahren. Darüber hinaus bieten sie ausgefeilte Berechtigungskonzepte, Werkzeuge für die Versionierung von Dateien und Protokolle, wer wann auf welche Dateinen zugegriffen hat, starke Verschlüsselungsmechanismen sowie Tools für das Management der Daten in der Cloud. Beispielsweise hat der österreichische Anbieter Fabasoft für seine "Folio Cloud" verschiedene Add-ons im Programm, mit deren Hilfe Anwender unter anderem ein revisionssicheres Dokumenten-Management in der IT-Wolke aufsetzen können.

IT-Verantwortliche, denen das Risiko, Daten in eine Public Cloud auszulagern, zu groß ist, können auch firmenintern im Rahmen einer Private-Cloud-Infrastruktur Dropbox-ähnliche Services zur Verfügung stellen. Verschiedene Anbieter wie beispielsweise Hitachi Data Systems (HDS) mit der "Hitachi Content Platform (HCP) Anywhere" haben zuletzt entsprechende Lösungen am Markt vorgestellt.

Big Data ist mehr

Doch im Zuge von Big Data geht es um mehr als nur Storage. Wesentliche Aspekte drehen sich um das Handling der Daten, um Analysen und Auswertungen und damit um den richtigen Umgang mit den Informationen. Schließlich verspricht Big Data den Unternehmen, zusätzliche neue Erkenntnisse aus den Daten gewinnen zu können, die dabei helfen sollen, das eigene Business entscheidend voranzubringen.

Gerade das Handling großer Datenmengen, die zudem meist auch sehr heterogen aus strukturierten und weniger strukturierten Daten zusammengesetzt sind, stellt jedoch hohe technische Anforderungen an die IT-Infrastruktur. Um diese zu meistern, müssen die vorhandenen IT-Ressourcen möglichst effizient eingesetzt werden. Dabei spielen auch Techniken aus dem Cloud Computing eine wichtige Rolle wie beispielsweise Virtualisierung. Ziel ist, einen einheitlichen Abstraktions-Layer als Kontrollschicht über die Hardware zu legen, um diese in Ressourcen-Pools bündeln und so je nach Anforderung effizienter einsetzen zu können.

Das Schlagwort, das die Branche derzeit an dieser Stelle umtreibt, heißt "Software Defined": Das reicht vom Server über das Netz bis hin zum Speicher - kann also das gesamte Rechenzentrum umfassen. In so einem Software Defined Data Center (SDDC) ist alle Infrastruktur virtualisiert und wird als Service geliefert - so das Versprechen der Hersteller.

Halten sich die Anbieter daran, könnten Anwender auf Basis der bereits vorhandenen Infrastruktur hocheffiziente Rechenzentren aufbauen, die auch helfen können, richtig mit Big Data umzugehen.

Big Data heißt in erster Linie, wertvolle Erkenntnisse für das eigene Geschäft aus seinen Daten zu gewinnen. In klassischen IT-Umgebungen kommen dafür relationale Datenbanken, Data Warehouses sowie Werkzeuge für Business Intelligence (BI) zum Einsatz. Angesichts der wachsenden Datenmengen, der Heterogenität dieser Daten und der steigenden Anforderungen von Business-Seite, was beispielsweise die Flexibilität beim Stellen von Fragen sowie schnelle Antworten betrifft, stoßen die herkömmlichen Daten-Architekturen heute oft an ihre Grenzen.

Abhilfe versprechen neue Lösungen wie beispielsweise NoSQL-Datenbanken, In-Memory-Techniken und Hadoop. Letzteres ist ein Software-Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern zügig abarbeiten können. Die Lösung besteht im Wesentlichen aus dem "Hadoop Distributed File System" sowie dem von Google entwickelten MapReduce-Algorithmus. Dieser zerlegt komplexe Berechnungen in viele kleine Aufgaben, verteilt sie auf die Rechenknoten im Cluster und führt die Ergebnisse am Ende wieder zusammen.

Hadoop aus der Cloud

Rund um Hadoop entwickelt sich derzeit ein regelrechtes Ökosystem von Herstellern, die Zusatzlösungen entwickeln, sowie Serviceanbietern, die Dienstleistungen für das Big-Data-Werkzeug offerieren. Wer keine eigene Hadoop-Infrastruktur aufbauen und betreiben möchte, findet hier seit Kurzem auch Cloud-Lösungen. Beispielsweise haben der Linux-Anbieter Red Hat, Hortonworks sowie der Hadoop-Integrator Mirantis das Softwareprojekt "Savanna" aufgesetzt. Ziel ist, Anwendern die Installation eines Hadoop-Clusters auf einer Cloud-Infrastruktur zu erleichtern. Basis für Einrichtung und Verwaltung der Cloud-Ressourcen bildet dabei OpenStack. Der Open-Source-Standard hat zuletzt starken Rückenwind bekommen, da sich IBM dazu bekannt hat, seine gesamte Cloud-Infrastruktur auf Basis der OpenStack-Architektur entwickeln zu wollen.

Cloud-Standards

Unternehmen könnten so Private-, Hybrid- und Public-Cloud-Installationen effizienter steuern, sagen Experten. Das bedeute auch eine bessere Integration von Cloud- und On-Premise-Umgebungen. Ein Faktor, der gerade im Umfeld von Big Data nicht zu unterschätzen ist, wenn Unternehmensdaten zwischen der eigenen Infrastruktur und Cloud-Systemen hin- und herfließen.

Hadoop-Technik spielt mittlerweile auch bei vielen etablierten Anbietern eine wichtige Rolle. VMware will mit seinem Projekt "Serengeti" den Hadoop-Einsatz virtualisierter IT-Umgebungen optimieren. Microsoft bietet mit HDInsight einen Service für seine Azure-Plattform an, der Anwendern eine leichtere Einrichtung und Verwaltung von Hadoop-Clustern in der Cloud erlauben soll.

Auch andere renommierte Hersteller bieten Big-Data-Techniken aus der Cloud an. Beispielsweise kündigte Oracle an, gerade hinsichtlich der wachsenden Big-Data-Herausforderungen sein Cloud-Angebot massiv auszubauen. Das nächste Major Release der eigenen Datenbank, das im Herbst auf den Markt kommen soll, trägt den Namen "12c" - c steht für Cloud.

SAP hat Anfang Mai seine In-Memory-Datenbank-Appliance HANA als Cloud-Variante vorgestellt. Anwender könnten damit wesentlich schneller entsprechende Plattformen aufsetzen, versprechen die SAP-Verantwortlichen. In der Cloud erhielten sie eine dedizierte HANA-Instanz aus Speicher-, Netz- und Rechenkapazität.

SAPs Preismodell hat indes wenig mit der Cloud-Idee gemein. Der Hersteller bezeichnet sein Angebot als "Managed Cloud Service". Wer ein verbrauchsabhängiges flexibles Pricing erwartet, wird enttäuscht. Kunden müssen entsprechende Lizenzen mitbringen oder neu kaufen. (mhr)

»

Best in Big Data

Best in Big Data
Die COMPUTERWOCHE kürt gemeinsam mit einer fachkundigen Experten-Jury bereits zum dritten Mal die besten Big-Data-Projekte, -Lösungen und – neu in diesem Jahr – die besten Services rund um Big Data. Das Finale findet auf dem COMPUTERWOCHE-Kongress Best in Big Data am 18. September in Wiesbaden statt.

Teaserbild: kryzhov, Shutterstock.com