Datenpipelines integrieren Prozesse und Funktionen

SAP Data Hub soll Datenströme bändigen

26.09.2017
Von 
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Mit ihrem neuen Data Hub will SAP das Daten-Handling vereinfachen. Über Datenpipelines sollen Anwender die Datenflüsse und -bearbeitung lenken und steuern können. Dabei bleiben die Daten an ihrem ursprünglichen Ablageort.
Mit dem Data Hub könnten Unternehmen ihre Datenfluten besser sortieren und nutzen, verspricht SAP.
Mit dem Data Hub könnten Unternehmen ihre Datenfluten besser sortieren und nutzen, verspricht SAP.
Foto: Kodda - shutterstock.com

SAP hat auf einem Big Data Event in New York ihren neuen SAP Data Hub vorgestellt. Die Lösung soll Unternehmen dabei unterstützen, die wachsende Komplexität ihrer Datensysteme zu reduzieren und damit mehr aus ihren Datenbeständen herauszuholen. Die Datenlandschaften in Unternehmen würden immer komplexer, konstatierten Vertreter des größten deutschen Softwareherstellers. Schuld daran seien unter anderem die immer vielfältigeren Datenquellen und -ziele, darunter Data Marts, Cloud-Anwendungen, Cloud-Speicher und Business-Intelligence-Werkzeuge.

"Unternehmen suchen eine einheitliche und offene Lösung, um den Datenfluss in allen ihren Datenlandschaften auszuweiten, zu beschleunigen und für alle Benutzer zugänglich zu machen", erklärte Bernd Leukert, der als Mitglied des Vorstands der SAP SE den Bereich Products & Innovation verantwortet. Der SAP Data Hub schließe die Lücke zwischen Big Data und Unternehmensdaten. Außerdem ließen sich auf Basis des Data Hub Anwendungen entwickeln, die das Potenzial der Daten in der gesamten Organisation ausschöpften, egal, ob sich diese Daten in der Cloud oder auf lokalen Systemen, in einem Data Lake oder im Enterprise Data Warehouse, in einem SAP- oder SAP-fremden System befinden.

Kein Zentrallager für Daten notwendig

Irfan Khan, verantwortlich für den Vertrieb der Datenbank- und Datenmanagement-Systeme bei SAP, beschrieb den Data Hub als einen zentralen Layer und umfassenden Schirm für das Datenmanagement. Unternehmen erhielten damit einen Überblick und Zugriff auf sämtlichen Daten in ihrer Organisation. Allerdings müssten diese Daten nicht zuerst in einem zentralen System zusammengefasst und gelagert werden. Zugriff und Verarbeitung der Daten erfolgten an ihren jeweiligen Ablageorten, sagte Khan.

SAPs Data Hub soll Anwendern einen besseren Überblick über die eigenen Datenarchitekturen verschaffen.
SAPs Data Hub soll Anwendern einen besseren Überblick über die eigenen Datenarchitekturen verschaffen.
Foto: SAP

Der SAP Data Hub beinhaltet Funktionen für Datenintegration, -orchestrierung und -Governance. SAP-Vertreter sprechen dabei von einer neuen Kategorie von Software, mit deren Funktionen sich Systemlandschaften überwachen und verwalten sowie die Datenpipeline in der gesamten Organisation verarbeiten lasse.

Anwender erhielten mit SAP Data Hub eine detaillierte und leicht verständliche Sicht auf die gesamte Datenlandschaft, verspricht der Hersteller. Das reiche von SAP-Softwarequellen wie der SAP HANA-Plattform bis hin zu SAP-fremden Quellen wie etwa Apache Hadoop. Dadurch ließen sich die Nutzung und die Qualität von Daten sowie deren Wirkungszusammenhänge besser verstehen.

Darüber hinaus könnten Unternehmen Veränderungen im Datensystem besser nachvollziehen. So könnten neue Geschäftschancen im Zusammenhang mit Daten identifiziert, potenzielle Datenrisiken beseitigt und die richtigen Pfade für den Datenfluss sichergestellt werden, stellt SAP interessierten Kunden in Aussicht.

Daten fließen durch Pipelines

Zentraler Bestandteil der Datendrehscheibe sind die sogenannten Datenpipelines. Entwickler können SAP zufolge im Data Hub verschiedene Modelle für Datenpipelines entwickeln, über die sich Informationen aus unterschiedlichsten Quellen in der gesamten Organisation abrufen, harmonisieren, transformieren und verarbeiten lassen.

Darüber hinaus lassen sich verschiedene Aktivitäten und Funktionen direkt in die entsprechenden Pipelines integrieren, beispielsweise Bibliotheken für Berechnungen und Machine Learning wie Googles TensorFlow. Rechen- und Verarbeitungsprozesse würden damit direkt an den Ort verlagert, wo die Daten liegen. Das ist der Unterschied zu klassischen Datenarchitekturen, in denen Daten in aller Regel via ETL-Prozessen (Extract, Transform, Load) zunächst in einem zentralen Daten-Lager wie einem Data Warehouse oder Hadoop-System gesammelt und dann dort weiter verarbeitet werden. Um die Entwicklung und Implementierung der Datenpipelines zu vereinfachen, sollen sich die Modelle im SAP Data Hub einfach kopieren, modifizieren und wiederverwenden lassen.

In Datenpipelines lassen sich verschiedene Funktionen und Bearbeitungsprozesse direkt dort implementieren, wo die Daten liegen.
In Datenpipelines lassen sich verschiedene Funktionen und Bearbeitungsprozesse direkt dort implementieren, wo die Daten liegen.
Foto: SAP

Den notwendigen Durchblick im Datensystem sollen Anwender mit Hilfe eines Data Operations Cockpit erhalten. Hier fasst SAP alle Funktionen für das Data Hub Management zusammen. Das Cockpit liefert einen Überblick über sämtliche angeschlossenen Systeme, Verbindungen sowie Adapter und die dort verfügbaren Daten. Neben der Definition von Workflows und Prozessaufgaben könnten Anwender in dem Cockpit zudem Sicherheitsrichtlinien festlegen, wer auf welche Daten zugreifen darf. Darüber hinaus ließen sich für die Einhaltung von Governance-Richtlinien sämtliche Datenflüsse protokollieren.

Erst On-Premise - Cloud-Versionen sollen folgen

SAP wird seinen Data Hub zunächst klassisch als On-Premise-Software anbieten, die in den Rechenzentren der Anwenderunternehmen installiert wird. Die Architektur des Data Hub sei jedoch Cloud-ready, hieß es. Versionen für Platform as a Service (PaaS) sowie Software as a Service (SaaS) sollen im Rahmen der nächsten Releases folgen, kündigten die SAP-Verantwortlichen an.

Anwender könnten SAP zufolge ihre bestehenden Datenwerkzeuge von SAP wie SAP Data Services, SAP HANA Smart Data Integration, Data Virtualization oder Data Replication weiter nutzen. Mit dem Data Hub erhielten sie jedoch ein Werkzaug, mit dem sich sämtliche Datenprozesse auf einer einzelnen Plattform überblicken ließen, beschreibt der Hersteller den Vorteil der neuen Lösung.

Die Preise richten sich laut SAP nach der Zahl der im Data Hub integrierten Systeme sowie der Zahl der Rechenknoten, auf der die Processing Engine des Data Hub ausgerollt wird. Als Grundlage für die Nutzung des Data Hub benötigen die Unternehmen jedoch eine Lizenz für SAP HANA.

Fragmentierte Datensysteme erschweren Entscheidungen

"Es wird immer schwieriger, Wertschöpfung aus den eigenen Daten zu ziehen, weil sich die zugrundeliegenden Systeme immer stärker verzweigten", konstatierte SAP-Chef Bill McDermott. Das sei ein Schmerzpunkt, der sich quer durch alle Branchen und Industrien beobachten lasse. SAP hat im Rahmen der Studie "Data 2020: State of Big Data" rund 500 Entscheider in Australien, Brasilien, China, Deutschland, Frankreich, Großbritannien Japan, Kanada und den USA vom US-Marktforschungsunternehmen Regina Corso Consulting befragen lassen.

Zentrales Ergebnis: Fragmentierte und isolierte IT-Umgebungen erschwerten fundierte Geschäftsentscheidungen. Demzufolge gaben fast drei Viertel der Befragten an, ihre Datenlandschaft sei so komplex, dass die eigene Flexibilität beeinträchtigt werde. 86 Prozent erklärten, sie könnten das Potenzial ihrer Daten nicht maximal ausschöpfen.

Aus Sicht von SAP-Chef Bill McDermott wird es in immer weiter verzweigten Systemlandschaften schwieriger, die eigenen Daten effizient für bessere Geschäfte zu nutzen.
Aus Sicht von SAP-Chef Bill McDermott wird es in immer weiter verzweigten Systemlandschaften schwieriger, die eigenen Daten effizient für bessere Geschäfte zu nutzen.
Foto: SAP