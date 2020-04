Die Masse an Daten wächst unaufhörlich. Dem Marktforschungsunternehmen IDC zufolge betrug sie 2018 bereits 33 Zettabyte (ZB) - eine Zahl mit 21 Nullen! Bis 2025 soll sie auf das mehr als Fünffache ansteigen und dann 175 ZB betragen. Neben den von menschlichen Nutzern erzeugten Daten aus Webanwendungen, mobilen Apps und sozialen Medien sind es vor allem maschinengenerierte Informationen, die zu dieser Datenflut beitragen.

Die im Internet of Things (IoT) vernetzten Geräte und Sensoren senden ihren Status oft im Sekundentakt an ihre Basis. Auch wenn diese Datenpakete oft nur wenige Kilobyte groß sind, so kommen bei den - je nach Zählung- 8 bis 30 Milliarden IoT-Geräten, die es auf der Welt bereits gibt, riesige Datenmengen zusammen.

Doch die schiere Masse ist nicht das einzige Problem. Unstrukturierte Daten in unterschiedlichsten Formaten, aber auch die häufig unzureichende Datenqualität erschweren die Informationsgewinnung zusätzlich, die Ablage in getrennten Speichersilos behindert die Zusammenführung verschiedener Datenquellen und macht eine unternehmensweite Gesamtschau auf das Informationspotenzial unmöglich.

Hinzu kommt häufig ein enormer Zeitdruck. Verkehrsströme, Kundenverhalten oder Ausfälle von Maschinen lassen sich nur dann vorhersagen, wenn die zugrundeliegenden Daten zeitnah ausgewertet werden können. Schließlich müssen auch die Kosten einer solchen Analyse in einem sinnvollen Verhältnis zum Nutzen stehen - Big Data ist schließlich kein Selbstzweck.

Datenanalyse: Cloud, On-Premise oder Edge?

Um diesen Herausforderungen begegnen zu können, sind eine ganzheitliche Analysestrategie und ein durchgängiges Datenmanagement notwendig. Bereits vor dem Aufbau einer Big-Data-Plattform müssen viele Entscheidungen getroffen werden. Das beginnt schon beim Bereitstellungsmodell. Je nach Fragestellung und Datenbasis bietet sich die Analyse in einer Cloud-Umgebung, im eigenen Rechenzentrum oder sogar direkt vor Ort bei den IoT-Geräten am Edge an. Hier die wichtigsten Argumente für und gegen das jeweilige Bereitstellungsszenario:

Big Data in der Cloud: Analysesysteme wie Apache Hadoop lassen sich relativ schnell und kostengünstig in einer Public-Cloud-Umgebung aufsetzen. Provider wie Amazon Web Services (Apache Hadoop auf Amazon EMR), Microsoft (Azure HDInsight) und Google (Dataproc) haben entsprechende Services im Portfolio. Die Analyse in der Cloud bietet sich vor allem dann an, wenn sich die Daten ohnehin bereits im Internet befinden, beziehungsweise dort entstehen. Typische Anwendungsszenarien sind die Verarbeitung öffentlich zugänglicher Daten (Wetter, Verkehrsströme, demographische Daten), von Informationen aus Social-Media-Kanälen sowie von Webseiten oder aus mobilen Applikationen. Problematisch ist die Nutzung der Cloud dagegen, wenn sehr große Datenmengen lokal anfallen. Die Übertragung in die Cloud ist bandbreitenintensiv und dauert unter Umständen zu lange, um schnell Analyseergebnisse erzielen zu können. Vor allem aber begibt man sich in eine starke Abhängigkeit vom jeweiligen Provider. Ein Umstieg auf einen anderen Anbieter oder die Rückführung der Daten ins eigene Rechenzentrum ist häufig mit hohen Kosten und Aufwänden verbunden.

Datenanalyse on-premises: Der Aufbau eigener Big-Data-Systeme empfiehlt sich immer dann, wenn sehr große Datenmengen vor Ort entstehen, etwa in Maschinen und Produktionsstraßen. Auch rechtliche Gründe können eine Rolle spielen, wenn es beispielsweise um die Verarbeitung personenbezogener oder sonstiger sensibler Daten geht. Kosten und Zeitaufwand für eine eigene Installation dürfen allerdings nicht unterschätzt werden. Auch das notwendige Know-how für Konzeption, Implementierung und Betrieb einer solchen Big-Data-Umgebung fehlt gerade im Mittelstand häufig.

Datenverarbeitung am Edge: In vielen IoT-Szenarien muss zumindest die Vorverarbeitung von Daten ortsnah erfolgen. Dies gilt besonders dann, wenn die Analyseergebnisse wie beim autonomen Fahren nahezu in Echtzeit erforderlich sind. Auch unzuverlässige oder nur zeitweise verfügbare Netzverbindungen können eine Datenverarbeitung vor Ort notwendig machen. Eine Vielzahl von Edge-Computing-Appliances erhöht die Komplexität einer IoT-Umgebung erheblich. Der Managementaufwand steigt ebenso deutlich wie die Gefahr von Konfigurationsfehlern oder Cyberangriffen auf die IoT-Infrastruktur.

So finden sie die richtige Big-Data-Umgebung

In den meisten Fällen ist eine strikte Trennung in Cloud-, On-premises- und Edge-Analysen weder sinnvoll noch machbar. Auch der Aufbau einer grundlegend neuen Big-Data-Infrastruktur ist meist zu kostenintensiv und zeitaufwändig. Der beste Weg ist daher oft, bestehende Systeme um moderne Analytics-Plattformen zu erweitern und diese bei Bedarf über einer sichere und leistungsfähige Data Pipeline mit Cloud- und Edge-Ressourcen zu verbinden.

Wie Sie den Wert Ihrer Daten evaluieren, die richtige Analyseplattform für Ihre Fragestellung finden, und wie Sie diese auf Basis von NetApp-Technologie kosteneffizient, flexibel und erweiterbar realisieren, das erfahren Sie im COMPUTERWOCHE Webcast in Zusammenarbeit mit SVA am 26. Mai.

Jetzt anmelden!