Erfolgreich im Datenzeitalter - mit neuen Maßstäben bei Leistung, Flexibilität und Skalierbarkeit

Künstliche Intelligenz, Advanced Analytics, Cloud Computing und neue Storage-Technologien helfen Unternehmen bei der Problemlösung, Entscheidungsfindung und Skalierung. Erfahren Sie hier, wie Sie mit moderner, effizienter IT-Infrastruktur im Zeitalter der Daten erfolgreich sein können.

Wege aus der Datenflut

So machen Sie Ihre Daten wirklich nutzbar

06.08.2020
Das Bändigen der Datenflut und das Verwandeln der Daten in Geschäftsvorteile erfordert eine intelligente Strategie, die eng mit einer modernisierten Daten-Infrastruktur verknüpft ist. Dafür sollten Unternehmen ihre Daten entsprechend organisieren und vorbereiten.

Die weltweit erzeugte Datenmenge wächst in rasantem Tempo - und ein Ende ist nicht abzusehen. Im Gegenteil: Wurden 2019 "nur" 41 Zettabyte an Daten generiert, vervierfacht sich das Datenvolumen bis zum Jahr 2025 laut der IDC-Studie "Data Age 2025" auf 175 Zettabyte. Das entspricht einem jährlichen Datenwachstum von circa 27 Prozent. Größter Treiber dieses Wachstums sind die Unternehmensdaten. In fünf Jahren machen die dort gelagerten Bestände rund 80 Prozent der Gesamtmenge an Daten weltweit aus.

Unternehmen ziehen heute noch einen viel zu geringen Nutzen aus ihren Daten – weil letztere nur schwer zugänglich sind.
Unternehmen ziehen heute noch einen viel zu geringen Nutzen aus ihren Daten – weil letztere nur schwer zugänglich sind.
Foto: Vasin Lee - shutterstock.com

Für Unternehmen bedeuten die riesigen Datenfluten Chancen und Risiken zugleich. Die Chancen liegen darin, dass sie die Datenmassen nutzen können, um sie zu analysieren und sich damit Wettbewerbsvorteile zu sichern. Gleichzeitig besteht mit dem Datenmeer aber auch die Gefahr eines undurchdringlichen und undurchsichtigen "Datensumpfs", der Unternehmen nur Arbeit und Kosten, aber keinen Nutzen bringt. Schon heute zeichnet sich ab, dass IT-Verantwortliche aus ihren Daten einen viel zu geringen Nutzen ziehen. Weniger als ein Prozent der aktuell verfügbaren Daten wird laut Forbes tatsächlich analysiert, da der Rest nicht leicht zugänglich ist.

Um die Chancen zu wahren und die Risiken zu bändigen, braucht es eine intelligente Datenstrategie, die eng mit einer modernisierten Daten-Infrastruktur verknüpft ist. Die analytischen Technologien benötigen große Mengen sauberer und hochwertiger Daten, damit solide und zeitnahe Erkenntnisse gewonnen werden können. Eine solche intelligente Datenstrategie lässt sich aber nur erreichen, wenn Unternehmen ihre Daten in mehreren Schritten organisieren und aufbereiten - und dabei innovative Datentechnologien einsetzen.

Schritt 1: Vorbereitung der Daten

Daten, die verteilt in Silos und abgeschotteten Systemen liegen, sind schwer zugänglich und bleiben bei Analysen oft außen vor. Im ersten Schritt sollten deshalb die Datengefängnisse geöffnet und die Datenlandschaft auf die Höhe der Zeit gehievt werden. Das bedeutet, die oft historisch gewachsenen Datensilos und fragmentierten Systeme aufzulösen und in eine dynamische und flexible Infrastruktur zu überführen.

Als Daten-Infrastruktur bieten sich moderne Data Lakes an. Ein Data Lake nimmt strukturierte und unstrukturierte Daten aus unterschiedlichen Quellen im Rohformat in ein zentrales System auf. Damit ist es möglich, die Daten in Beinahe-Echtzeit an einem Ort zu sammeln, zu speichern und von dort aus direkt zu analysieren - mit Unterstützung agiler Technologieplattformen mit Speicher- und Netzwerkressourcen.

Schritt 2: Auswahl von Tiering-Strategie und Medien

Wesentlicher Bestandteil der Datenstrategie ist das Daten-Tiering. Dieses beruht auf der Erkenntnis, dass nicht alle Daten gleich wichtig sind. Man sollte deshalb wissen, welche Datenarten und -quellen für das Unternehmen am wertvollsten sind. Mit diesem Wissen lässt sich eine Strategie für das Daten-Tiering festlegen.

Ein wichtiger Teil dieser Strategie ist die Nutzungshäufigkeit. "Heiße" Daten werden sehr oft verwendet und sind geschäftskritisch, auf "warme", "kalte" und "eingefrorene" Daten muss hingegen weniger oft oder so gut wie nie zugegriffen werden. Das gängige Tiered-Storage-Modell speichert die wichtigsten oder "heißesten" Daten möglichst nahe an der CPU und in den Systemen, in denen sie benötigt werden. Das sind oft teurere, leistungsstarke skalierbare Hochleistungssysteme. Damit werden die Datenauswertungen beschleunigt.

Die vier Daten-Tiers: Heiße Daten werden besonders oft genutzt. Intel-Optane hilft, diese Daten möglichst nahe an der CPU zu halten.
Die vier Daten-Tiers: Heiße Daten werden besonders oft genutzt. Intel-Optane hilft, diese Daten möglichst nahe an der CPU zu halten.
Foto: Intel

Dieses Modell kommt inzwischen allerdings ins Wanken: Weil es immer mehr Anwendungsfälle für Echtzeit-Verarbeitung und Analytics gibt und die Datenmengen zusehends größer werden, verstärkt diese Entwicklung das Problem, möglichst viele Daten möglichst nahe an der CPU halten zu müssen.

Für dieses Problem hat Intel mit seiner Optane-Technologie eine Lösung entwickelt. Der Einsatz von Intel Optane Technologie und 3D-NAND-SSDs ermöglicht es, selbst größere Datenbestände näher an der CPU zu halten und so die Performance von umfangreichen Daten- und Analytics-Systemen deutlich zu steigern. Wird das Speicherportfolio um diese Option erweitert, können flexiblere Daten-Tiering-Strategien entwickelt werden.

Schritt 3: Optimierung von Datenschutz und -redundanz

Um das für Analytics- und KI-Workloads benötigte Wachstum und die Performance zu erreichen, müssen auch Speicherung und Redundanz der Daten optimiert werden. Wird dieser Schritt ausgelassen, bleibt möglicherweise ein großer Teil der Performance ungenutzt und es entstehen höhere Kosten.

Eine Reihe von Techniken können hier helfen. Ansätze für die Speicherung und Verschlüsselung von Daten nutzen oft das Hadoop Distributed File System (HDFS) zusammen mit RAID für Fehlertoleranz im Falle von Festplattenausfällen. Dieser Ansatz ist jedoch umstritten, denn wenn selten auf die Daten zugegriffen wird, können die Anforderungen an die Infrastruktur unnötig hohe Kosten verursachen.

Kosten- und Latenzvergleich der wichtigsten Datenspeichermedien: Die Kosten steigen mit niedrigeren Latenzen.
Kosten- und Latenzvergleich der wichtigsten Datenspeichermedien: Die Kosten steigen mit niedrigeren Latenzen.
Foto: Intel

Viele Technologien zum Datenschutz und zur Datenoptimierung bietet die Optane-Technologie. Intel Optane-Medien haben beispielsweise Vorteile in Bezug auf die Langlebigkeit, die sie von anderen Medien unterscheiden. Der wichtigste Vorteil sind liegt in der Beschaffenheit der Zellen selbst. Sie wurden mit Materialien hergestellt, die speziell für eine viel höhere Lebensdauer ausgelegt sind als etwa die von NAND-Medien.

Aufgrund seiner hohen Leistung bildet der persistente Speicher Optane DC eine neue Datenspeicherschicht, die auf vielfältige Weise genutzt werden kann, um Lücken hinsichtlich Kapazität und Leistung zu schließen. Diese Flexibilität ermöglicht es Unternehmen, Rechenzentren zu konzipieren, die den Verarbeitungs- und Speicheranforderungen moderner Anwendungen besser gerecht werden können. So kann zum Beispiel mit Optane DC persistenter Speicher verwendet werden, um die Kapazität für In-Memory-Datenbanken deutlich zu erhöhen.

Schritt 4: Beschleuniger für die Optimierung der Datenaufnahme

Die Aufnahme der Daten verzögert oft die Datenanalysen. In diesem Fall helfen Intel FPGAs (Field Programmable Gate Array). Die Arrays dienen als Streaming-Beschleuniger, die Berechnungen parallel durchführen können und direkt an Kupfer-, Glasfaser- oder Lichtleiterkabel angeschlossen werden - wobei auf dem Board gegebenenfalls noch entsprechende Adapter benötigt werden. Beliebige Daten in jeglichem Format lassen sich damit ohne eine Netzwerkkarte innerhalb von Nanosekunden vom Kabel in den Speicher übertragen. Die Betriebskosten von FPGAs sind relativ gering und sie können auch so umprogrammiert werden, dass sie auch sich verändernden Anforderungen gerecht werden.

Bei Umgebungen für High Performance Data Analytics (HPDA) benötigen Frameworks für Streaming-Data-Pipelines wie Apache Kafka und Apache Spark eine Streaming Hardware-Beschleunigung in Echtzeit. Intel FPGAs können Daten in Echtzeit gleichzeitig lesen und schreiben bzw. verschlüsseln und entschlüsseln, ohne dabei die Ressourcen der Host-CPU zu beanspruchen.

Schritt 5: Data Governance und Sicherheitsrichtlinien

Es ist von zentraler Bedeutung, Datensilos aufzubrechen und ein Gesamtbild anzustreben, mit dem Entscheidungsträger aussagekräftige Informationen erhalten. So kann beispielsweise eine Finanzabteilung mit Echtzeit-Informationen aus Vertriebsprogrammen den Unternehmensumsatz besser prognostizieren. Kommentare in sozialen Medien lassen Trends erkennen und liefern Anregungen dafür, wie sich aktuelle Produkte oder Services durch Weiterentwicklungen verbessern lassen. Echtzeit-Websitedaten über Kundenvorlieben können neue Möglichkeiten aufzeigen, wie Unternehmen jetzt und in Zukunft einen Mehrwert bieten können.

Daten sind heute eine neue Form von Währung für Unternehmen. Als solche sollten sie so aufbewahrt, geschützt und geteilt werden, dass sie dem Wert entsprechen, den sie für ein Unternehmen darstellen. Sie sollten deshalb möglichst eine Unternehmenskultur einführen, die die Arbeit mit Daten fördert und datenbasierte Entscheidungen ermöglicht. Es ist bereits jetzt abzusehen, dass datengetriebene Unternehmen sich Wettbewerbsvorteile gegenüber der Konkurrenz sichern.