Dreamteam der IT

Traumpaar Cloud und Big Data

20.06.2013 von Martin Bayer
Cloud und Big Data könnten das neue Dreamteam der IT werden. Gerade wenn es um das Handling großer Datenmengen geht, bieten skalierbare und flexible Cloud-Lösungen eine interessante Alternative.

Drohten Datenspeicher überzulaufen, gab es in der Vergangenheit meist nur ein Mittel: Anwender mussten zusätzliche Festplattenkapazitäten in ihre Rechner einbauen. Doch gerade in heterogenen und unübersichtlichen IT-Umgebungen führt die Strategie, Storage-Engpässe in Feuerwehrmanier mit zusätzlicher Hardware zu bekämpfen, meist zu wenig effizienten Speicherlandschaften. Während an der einen Stelle immer wieder die Alarmglocken schrillen, schlummern an anderer Stelle oft nicht genutzte Ressourcen, die der Administrator mangels Überblicks nicht auf dem Schirm hat.

Speicher online

Mit Hilfe der Cloud lassen sich Storage-Probleme heute schneller und eleganter lösen. Speicherdienste wie Dropbox, Google Drive oder Microsofts Skydrive bieten zudem noch weitere Vorteile: Der Internet-Speicher schafft nicht nur zusätzliche Kapazität, sondern auch die Möglichkeit, Daten mit anderen Nutzern auszutauschen und zu teilen. Zudem können die User von verschiedenen Orten aus mit unterschiedlichen Endgeräten auf den Netzspeicher zugreifen.

Was für viele Privatanwender bereits gang und gebe ist, bereitet Administratoren jedoch mehr und mehr Sorgen. Nutzer, die privat die Vorteile von Dropbox und Co. zu schätzen gelernt haben, schleppen die Dienste zunehmend auch in die Unternehmen ein - hinter dem Rücken der IT-Abteilungen. Doch während man sich bei Urlaubsfotos oder der neuen Hausordnung für die Schrebergartensiedlung meist keine Gedanken um die Sicherheit der Daten machen muss, sieht es bei Firmeninformationen, die via Dropbox über die Fachabteilungen hinweg verteilt und ausgetauscht werden, ganz anders aus.

Herausforderung Cloud Security
Cloud-Computing-Umgebungen stellen in Bezug auf die Sicherheit IT-Verantwortliche und Systemverwalter vor neue Herausforderungen. Nach Angaben von Intel sind besonders folgende Faktoren zu berücksichtigen:
Mangel an Kontrolle:
Eine dynamische Technik wie Cloud Computing verschiebt die Grenzen der Unternehmens-IT über das hauseigene Rechenzentrum hinaus, etwa durch Einbeziehen von Public-Cloud-Services. Da
Unzureichende Transparenz:
In einer Cloud-Umgebung ist es wegen der hohen Komplexität schwieriger, Compliance-Vorgaben umzusetzen und die entsprechenden Audits vorzunehmen.
Virtualisierung:
Durch die wachsende Zahl von Virtual Machines steigt das Sicherheitsrisiko, weil alle diese Komponenten verwaltet werden müssen, Stichworte Patch-Management, Implementierung von Schutzsoftware, Einspielen von Updates und so weiter.
Ort der Datenspeicherung:
Rechtliche Vorgaben wie etwa das Bundesdatenschutzgesetz verlangen die Speicherung von Daten in Cloud-Rechenzentren, die innerhalb der EU angesiedelt sind und ausschließlich den hier geltenden Gesetzen unterliegen. Das erschwert die Wahl eines Cloud-Service-Providers.
Public Clouds:
Bei der Nutzung von Public Clouds sind spezielle Sicherheitsanforderungen zu berücksichtigen, etwa bezüglich des Schutzes der Daten, die beim Provider lagern, sowie beim Transport der Daten über Weitverkehrsverbindungen und das Internet.
Zugriff auf die Cloud von privaten Systemen aus:
Trends wie der Einsatz von privaten Endgeräten für betriebliche Zwecke erschweren die Absicherung des Zugriffs auf Cloud-Computing- Ressourcen. Eine Lösung ist der Einsatz von Mobile-Device- Management-Software.
Audits und Überwachung von Sicherheits-Policies:
Compliance- Regeln wie SOX (Sarbanes-Oxley Act), EuroSOX, HIPAA (Health Insurance Portability and Accountability Act) und PCI DSS (Payment Card Industry Data Security Standard) erfordern regelmäßige Überprüfungen der IT-Sicherheitsvorkehrungen. Speziell in Public- und Hybrid-Clouds, in denen neben einem Unternehmen ein Cloud-Service- Provider im Spiel ist, sind entsprechende Audits aufwendig.
Risiken durch gemeinsame Nutzung von Ressourcen:
In Cloud- Umgebungen teilen sich mehrere Kunden (Public Clouds, Community Clouds) physische IT-Ressourcen wie CPU, Speicherplatz und RAM. Wird ein Hypervisor kompromittiert, können die Anwendungen mehrerer Kunden betroffen sein.

Daten sind sensibel

Für sensible Unternehmensdaten gelten eigene Regeln. Gerade wenn es um personenbezogene Daten wie Kundeninformationen geht, müssen gesetzliche Vorgaben eingehalten werden. Wer solche Informationen ohne nachzudenken in einen beliebigen Online-Speicher verschiebt, kann sich großen Ärger einhandeln.

Um dem zu entgehen, bieten sich speziell auf Business-Anforderungen hin angepasste Cloud-Speicher an. Diese garantieren beispielsweise, die Daten innerhalb Europas beziehungsweise Deutschlands aufzubewahren. Darüber hinaus bieten sie ausgefeilte Berechtigungskonzepte, Werkzeuge für die Versionierung von Dateien und Protokolle, wer wann auf welche Dateinen zugegriffen hat, starke Verschlüsselungsmechanismen sowie Tools für das Management der Daten in der Cloud. Beispielsweise hat der österreichische Anbieter Fabasoft für seine "Folio Cloud" verschiedene Add-ons im Programm, mit deren Hilfe Anwender unter anderem ein revisionssicheres Dokumenten-Management in der IT-Wolke aufsetzen können.

IT-Verantwortliche, denen das Risiko, Daten in eine Public Cloud auszulagern, zu groß ist, können auch firmenintern im Rahmen einer Private-Cloud-Infrastruktur Dropbox-ähnliche Services zur Verfügung stellen. Verschiedene Anbieter wie beispielsweise Hitachi Data Systems (HDS) mit der "Hitachi Content Platform (HCP) Anywhere" haben zuletzt entsprechende Lösungen am Markt vorgestellt.

Big Data in Zahlen
Karl Valentin hat einmal das Bonmot geprägt, schwer sei leicht was. Das kann man für den Trend Big Data mit Sicherheit auch behaupten. Sinnvoll in der Theorie, schwer in der Realisierung. Wir liefern ein paar Fakten.
Welche Probleme sehen Sie beim Einsatz von Big Data?
Big-Data-Konzepte werden nicht vorangetrieben, weil es an den richtigen Skills fehlt.<br> Angaben in Prozent; n = 206; Mehrfachnennungen möglich; Quelle: BARC

Big Data ist mehr

Doch im Zuge von Big Data geht es um mehr als nur Storage. Wesentliche Aspekte drehen sich um das Handling der Daten, um Analysen und Auswertungen und damit um den richtigen Umgang mit den Informationen. Schließlich verspricht Big Data den Unternehmen, zusätzliche neue Erkenntnisse aus den Daten gewinnen zu können, die dabei helfen sollen, das eigene Business entscheidend voranzubringen.

Gerade das Handling großer Datenmengen, die zudem meist auch sehr heterogen aus strukturierten und weniger strukturierten Daten zusammengesetzt sind, stellt jedoch hohe technische Anforderungen an die IT-Infrastruktur. Um diese zu meistern, müssen die vorhandenen IT-Ressourcen möglichst effizient eingesetzt werden. Dabei spielen auch Techniken aus dem Cloud Computing eine wichtige Rolle wie beispielsweise Virtualisierung. Ziel ist, einen einheitlichen Abstraktions-Layer als Kontrollschicht über die Hardware zu legen, um diese in Ressourcen-Pools bündeln und so je nach Anforderung effizienter einsetzen zu können.

Das Schlagwort, das die Branche derzeit an dieser Stelle umtreibt, heißt "Software Defined": Das reicht vom Server über das Netz bis hin zum Speicher - kann also das gesamte Rechenzentrum umfassen. In so einem Software Defined Data Center (SDDC) ist alle Infrastruktur virtualisiert und wird als Service geliefert - so das Versprechen der Hersteller.

Halten sich die Anbieter daran, könnten Anwender auf Basis der bereits vorhandenen Infrastruktur hocheffiziente Rechenzentren aufbauen, die auch helfen können, richtig mit Big Data umzugehen.

Big Data heißt in erster Linie, wertvolle Erkenntnisse für das eigene Geschäft aus seinen Daten zu gewinnen. In klassischen IT-Umgebungen kommen dafür relationale Datenbanken, Data Warehouses sowie Werkzeuge für Business Intelligence (BI) zum Einsatz. Angesichts der wachsenden Datenmengen, der Heterogenität dieser Daten und der steigenden Anforderungen von Business-Seite, was beispielsweise die Flexibilität beim Stellen von Fragen sowie schnelle Antworten betrifft, stoßen die herkömmlichen Daten-Architekturen heute oft an ihre Grenzen.

Abhilfe versprechen neue Lösungen wie beispielsweise NoSQL-Datenbanken, In-Memory-Techniken und Hadoop. Letzteres ist ein Software-Framework, mit dessen Hilfe Anwender rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern zügig abarbeiten können. Die Lösung besteht im Wesentlichen aus dem "Hadoop Distributed File System" sowie dem von Google entwickelten MapReduce-Algorithmus. Dieser zerlegt komplexe Berechnungen in viele kleine Aufgaben, verteilt sie auf die Rechenknoten im Cluster und führt die Ergebnisse am Ende wieder zusammen.

Hadoop aus der Cloud

Rund um Hadoop entwickelt sich derzeit ein regelrechtes Ökosystem von Herstellern, die Zusatzlösungen entwickeln, sowie Serviceanbietern, die Dienstleistungen für das Big-Data-Werkzeug offerieren. Wer keine eigene Hadoop-Infrastruktur aufbauen und betreiben möchte, findet hier seit Kurzem auch Cloud-Lösungen. Beispielsweise haben der Linux-Anbieter Red Hat, Hortonworks sowie der Hadoop-Integrator Mirantis das Softwareprojekt "Savanna" aufgesetzt. Ziel ist, Anwendern die Installation eines Hadoop-Clusters auf einer Cloud-Infrastruktur zu erleichtern. Basis für Einrichtung und Verwaltung der Cloud-Ressourcen bildet dabei OpenStack. Der Open-Source-Standard hat zuletzt starken Rückenwind bekommen, da sich IBM dazu bekannt hat, seine gesamte Cloud-Infrastruktur auf Basis der OpenStack-Architektur entwickeln zu wollen.

Die Vorteile des Cloud Computings
Speziell für kleine und mittelständische Betriebe stellen Anfangsinvestitionen in die IT eine enorme Hürde dar. Cloud-Modelle bieten als Alternative nicht nur die Chance, Kapitalkosten in Betriebskosten umzuwandeln, sondern auch unter dem Strich zu sparen.
Cloud-Services verhindern ...
... den Kapitaleinsatz bei der IT-Ausstattung weitgehend (Capex). Technische oder personelle Ressourcen entfallen.
Es muss kein zusätzliches Know-how ...
... im Unternehmen aufgebaut werden.
Weil sich die Experten des IT-Dienstleisters ...
... um die kontinuierliche Funktionsfähigkeit der IT kümmern, werden Entscheidungsträger entlastet – von Installationsfragen über den Ausbau bis zu Austausch- und Skalierungsfragen.
Das Cloud-Modell vereinfacht ...
... eine Reihe von IT-Aufgaben: Implementierung, Upgrades, Downgrades, neue Releases, Patch-Management, wichtige Updates, laufende Erweiterungen und Fehlerbeseitigung.
Cloud-Lösungen gewährleisten die ...
... Einhaltung von Compliance-Richtlinien.

Cloud-Standards

Unternehmen könnten so Private-, Hybrid- und Public-Cloud-Installationen effizienter steuern, sagen Experten. Das bedeute auch eine bessere Integration von Cloud- und On-Premise-Umgebungen. Ein Faktor, der gerade im Umfeld von Big Data nicht zu unterschätzen ist, wenn Unternehmensdaten zwischen der eigenen Infrastruktur und Cloud-Systemen hin- und herfließen.

Hadoop-Technik spielt mittlerweile auch bei vielen etablierten Anbietern eine wichtige Rolle. VMware will mit seinem Projekt "Serengeti" den Hadoop-Einsatz virtualisierter IT-Umgebungen optimieren. Microsoft bietet mit HDInsight einen Service für seine Azure-Plattform an, der Anwendern eine leichtere Einrichtung und Verwaltung von Hadoop-Clustern in der Cloud erlauben soll.

Auch andere renommierte Hersteller bieten Big-Data-Techniken aus der Cloud an. Beispielsweise kündigte Oracle an, gerade hinsichtlich der wachsenden Big-Data-Herausforderungen sein Cloud-Angebot massiv auszubauen. Das nächste Major Release der eigenen Datenbank, das im Herbst auf den Markt kommen soll, trägt den Namen "12c" - c steht für Cloud.

SAP hat Anfang Mai seine In-Memory-Datenbank-Appliance HANA als Cloud-Variante vorgestellt. Anwender könnten damit wesentlich schneller entsprechende Plattformen aufsetzen, versprechen die SAP-Verantwortlichen. In der Cloud erhielten sie eine dedizierte HANA-Instanz aus Speicher-, Netz- und Rechenkapazität.

SAPs Preismodell hat indes wenig mit der Cloud-Idee gemein. Der Hersteller bezeichnet sein Angebot als "Managed Cloud Service". Wer ein verbrauchsabhängiges flexibles Pricing erwartet, wird enttäuscht. Kunden müssen entsprechende Lizenzen mitbringen oder neu kaufen. (mhr)

Teaserbild: kryzhov, Shutterstock.com