Fabric als zentrale Datenplattform

Wie Microsoft den Data-Analytics-Markt erobern will

29.11.2023 von Heinrich Vaske

Mit Fabric schafft Microsoft eine zentrale Daten- und Analytics-Plattform für Unternehmen, die das Thema KI vorantreiben wollen. Viele Bausteine dafür sind längst vorhanden.

Noch ruht er still und starr, der Datensee, aber mit Fabric hofft Microsoft einen kleinen Tsunami auszulösen.
Foto: Valerii_M - shutterstock.com

Microsoft-CEO Satya Nadella hatte Fabric schon auf der Konferenz Build 2023 als die wichtigste Einführung eines Datenprodukts seit dem SQL Server bezeichnet. Fabric war dann auch erneut ein bedeutendes Thema auf der User-Konferenz Ignite vor wenigen Tagen. Die übergreifende Datenplattform, die Data-Engineering, Data Warehousing, maschinelles Lernen und KI zusammenführt, ist seit Anfang November verfügbar. Herzstück ist OneLake, ein zentraler Datenpool, in dem Unternehmen ihre Data Warehouses und Data Lakes konsolidieren und ihre Daten für KI- und Analytics-Projekte bereitstellen sollen.

Fabric stützt sich auf verschiedene Microsoft-Produkte sowie auf Open-Source-Technologien von Databricks, das seit Jahren eng mit Microsoft zusammenarbeitet und viele seiner Produkte in die Azure-Cloud-Plattform integriert hat. Microsoft will sich mit Fabric für den bevorstehenden KI-Boom aufstellen. Daten sind die Grundlage für jedes KI-Vorhaben, und KI-Lösungen sind bekanntlich immer nur so gut, wie die Daten, auf denen sie basieren.

Fragmentierte Datenwelten machen Unternehmen zu schaffen

Doch einen homogenen, einfach zu bearbeitenden Datenbestand vorzuhalten, noch dazu in gleichbleibend hoher Qualität, ist alles andere als trivial. Die Datenumgebungen in den Betrieben sind über Jahre, oft Jahrzehnte hinweg organisch gewachsen. Sie sind fragmentiert, heterogen, schlecht gepflegt und vielen Unternehmen fehlt der Überblick. Microsoft will mit Fabric Antworten auf diese Probleme geben und konnte seit der Ankündigung der Preview auf der Build-Konferenz nach eigenen Angaben bereits 25.000 Unternehmen davon überzeugt, Fabric zu nutzen - oft gleich für eine ganze Reihe von Workloads.

Microsoft bezeichnet Fabric als "vollständige Analyseplattform", die im Wesentlichen Eigenschaften von Power BI, Azure Synapse Analytics und Azure Data Factory kombiniert. Insgesamt lassen sich laut Hersteller die folgenden sieben Kern-Workloads abbilden, die jeweils für bestimmte Personengruppen mit spezifischen Aufgaben im Umfeld der Datenbearbeitung vorgesehen sind:

Data Factory: Microsoft bietet hier eine Datenintegrations-Umgebung, in der Entwickler und auch Anwender Daten verschiedenen Ursprungs - zum Beispiel aus Datenbanken, Data Warehouses und Lakehouses oder auch aus Echtzeit-Datenquellen - erfassen, vorbereiten und mithilfe sogenannter Dataflows transformieren können. Microsoft führt hier Azure Data Factory und Power Query Dataflows zusammen. Dabei lassen sich die Daten zwischen mehreren Datenspeichern verschieben und via "Fast Copy" in das jeweilige Lakehouse oder Data Warehouse in Microsoft Fabric übertragen und für Analysen heranziehen. Neben den Dataflows sind die Data Pipelines wichtig, die Unternehmen umfangreiche Daten-Orchestrierungsfunktionen bereitstellen, um komplexe ETL- und Data Factory-Workflows zu erstellen.
Synapse Data Engineering: Dies ist ein in Fabric fest verdrahteter Apache Spark Service, der neben Spark 3.3.1 auch Python 3.10 und Delta 2.2 mitbringt. Entwickler können damit Daten im großen Umfang transformieren und eine Lakehouse-Architektur im Delta-Format für heterogene Datenwelten aufbauen.
Synapse Data Science: Genau wie Data Engineering ist auch Synapse Data Science eine Komponente von Azure Synapse Analytics. Hier stellt Fabric verschiedene Tools für Data Scientists bereit. Zum Angebot gehören etwa Jupyter Notebooks und andere Tools zum Erstellen, Trainieren und Bereitstellen von Modellen für maschinelles Lernen - auch in großem Maßstab.
Synapse Data Warehouse: Microsoft stellt hiermit die Data Warehousing-Komponente von Azure Synapse Analytics zur Verfügung. Sie bietet ein Data Warehouse mit Unterstützung von massiv-paralleler Verarbeitung, so dass große Datenmengen für analytische Zwecke aufbereitet werden können.
Synapse Realtime Analytics: Mit dieser Funktion, ebenfalls von Azure Synapse Analytics, können Anwender Realtime-Analysen auf Streaming-Daten vornehmen. Hier werden Daten analysiert und verarbeitet, während sie in ein System eingespeist werden.
Power BI: Das bekannte Business-Analytics-Tool von Microsoft bietet interaktive Visualisierungen und BI-Funktionen mit einer benutzerfreundlichen Oberfläche. Anwender können damit Einblicke in ihre Daten gewinnen und sich diese in Dashboards und Reports anzeigen lassen.
Data Activator: Microsofts No-code-Angebot, das Anwendern helfen soll, automatisiert Maßnahmen einzuleiten, wenn Power-BI-Reports oder -Eventstreams veränderte Datenmuster erkennen lassen oder wenn bestimmte vorab definierte Schwellwerte erreicht werden. Beispielsweise können dann bestimmte Benutzer benachrichtigt oder Power-Automate-Workflows gestartet werden.

Mit Fabric stellt Microsoft also eine zentrale Plattform bereit, die eine breite Palette von Tools für die verschiedenen Bedürfnisse von Datenexperten bietet. Man wolle den Aufwand für die Integration von Analysediensten reduzieren und die Bearbeitung von Datenbeständen vereinfachen, so das Unternehmen. Die einheitliche Architektur führe auch zu einem verbesserten Kosten-Management, da künftig für jeden Workload ein einziger "Kapazitäts- und Speicherpool" bereitstehe. Anwender könnten ihre Daten effektiv mit End-to-End-Governance- und Sicherheitsfunktionen schützen, die für Daten in Microsoft Fabric genauso funktionierten wie darüber hinaus.

OpenLake - zentraler Datensee für das gesamte Unternehmen

Herzstück von Fabric ist OneLake, ein einheitlicher und logischer Data Lake für die gesamte Organisation, der automatisch mit jedem Fabric-Mandanten bereitgestellt wird und zentraler Ort für alle Analysedaten sein soll. Für Kunden sei es einfacher, diesen einen Datenpool zu nutzen, als - wie meistens bislang - mit mehreren Data Lakes für unterschiedliche Business Units zu arbeiten. Jeder Fabric-Mandant stellt automatisch OneLake bereit, ohne dass zusätzliche Ressourcen eingerichtet oder verwaltet werden müssen.

Unternehmen erhalten laut Microsoft eine "natürliche Governance- und Compliance-Grenze", die allein vom Administrator des jeweiligen Mandanten kontrolliert wird. Diese wichtige Instanz sorgt dafür, dass OneLake auf das eigene Unternehmen beschränkt bleibt, wo dann die verschiedenen Beteiligten ihren jeweiligen Beitrag zum Data Lake leisten können. Innerhalb eines Mandanten lassen sich verschiedene Arbeitsbereiche mit unterschiedlichen Zugriffsrichtlinien und -rechten einrichten.

So wie Word-, Excel- oder PowerPoint-Dateien in OneDrive gespeichert werden, können Lakehouses, Warehouses und andere Datenelemente in Fabric/OneLake abgelegt werden. Verschiedene Nutzergruppen greifen über ihre spezifischen Oberflächen darauf zu, Entwickler zum Beispiel auf die Spark-Entwickleroberfläche in einem Lakehouse.

ADLS Gen 2 als Basis

OneLake basiert auf Azure Data Lake Storage (ADLS) Gen2 und unterstützt strukturierte wie unstrukturierte Daten. Die Fabric-Datenelemente, etwa Data Warehouses und Lakehouses, speichern ihre Daten in OneLake im offenen Delta-Parquet-Format. Wenn beispielsweise ein Data Engineer Daten mit Spark in ein Lakehouse lädt und ein SQL-Entwickler T-SQL verwendet, um Daten in einem transaktionsbasierten Data Warehouse zu laden, tragen am Ende beide zum selben Data Lake bei.

Microsofts OneLake unterstützt dieselben ADLS-Gen2-APIs und -SDKs, um Kompatibilität mit vorhandenen ADLS-Gen2-Anwendungen, einschließlich Azure Databricks, zu ermöglichen. Unternehmen können Daten in OneLake so adressieren, als handele es sich um ein übergreifendes ADLS-Speicherkonto für die gesamte Organisation. Jeder Arbeitsbereich wird als Container innerhalb dieses Kontos angezeigt und unterschiedliche Datenelemente werden als Ordner darin präsentiert.

Zugelassene Anwender können in OneLake bestimmte Domänen und Arbeitsbereiche nutzen, um ihre Daten zu organisieren und Mitarbeitenden zu ermöglichen, über einen personalisierten Daten-Hub in diesen Beständen zu suchen. Laut Microsoft werden Daten nur ein einziges Mal in den Lake geladen, diese Kopie kann dann in allen Fabric-Workloads und -Engines verwendet werden. So sollen sich Datenduplizierung und sinnloses Anhäufen von Daten reduzieren lassen.

Dateien direkt aus dem Data Lake in Power BI laden

In Power BI stellt Microsoft zudem den Direct Lake-Modus bereit, über den Anwender eine Realtime-Verknüpfung zwischen ihren Reports und ihren OneLake-Daten herstellen können. Man wolle mit dieser direkten Integration von Power BI und OneLake sicherstellen, dass immer nur eine Kopie der Daten erstellt werde. So könnten Business-User immer auf die besten Daten zugreifen, eine Datenfragmentierung werde vermieden. Die Daten können dann in Microsoft 365-Anwendungen wie Outlook, Word, Excel, Teams oder PowerPoint übernommen werden.

Microsoft wäre nicht Microsoft, wenn nicht auch schon ein GenAI-basierter Copilot für Fabric bereitstünde - wenn auch erst einmal nur als Preview. So können Anwender sich in Power BI automatisiert Reports und Zusammenfassungen erstellen lassen. In Data Factory können Sie in einfacher Sprache beschreiben, wie sie Daten erfassen und umwandeln möchten, Copilot erledigt dann - im Idealfall - den Rest.

Mit Fabric hat Microsoft auch eine Reihe von Management-, Governance- und Sicherheitsfunktionen vorgestellt, die dabei helfen sollen, Einblicke in die Nutzung und Akzeptanz von Daten sowie Tools zu deren Verwaltung und Sicherung zu erhalten. Diese Governance- und Sicherheitsfunktionen sollen nun durch eine Integration mit Microsoft Purview erweitert werden. Kunden können jetzt "Purview-Information-Protection"-Kennzeichnungen verwenden, um sensible Fabric-Daten zu klassifizieren - sowie es Anwender von Microsoft 365 bereits kennen. Indem Benutzer- und Systemoperationen automatisch in Microsoft-Purview-Audit-Protokollen erfasst werden, sollen sich Audits vereinfachen lassen.

Datenquellen mit Fabric verbinden

Unternehmen halten heute ihre Daten normalerweise verstreut in diversen Clouds, Konten, Datenbanken, Domänen und Engines. Mit Shortcuts und der Datenreplikations-Funktion Mirroring will Microsoft deshalb die Einbindung von Daten in OneLake vereinfachen. Shortcuts ermöglichen es Datenteams, Daten in OneLake zu virtualisieren, ohne sie verschieben und duplizieren zu müssen. Daten, die über verschiedene Clouds, Geschäftsbereiche und Domänen verteilt sind, lassen sich zu einem virtualisierten Datenprodukt zusammenfassen, das auf anwenderspezifische Anforderungen zugeschnitten ist.

Shortcuts gibt es nicht nur für OneLake und Azure Data Lake Storage Gen2, sondern auch für Amazon S3 und Microsoft Dataverse. Darüber hinaus hat der Softwarekonzern Funktionen wie "Link to Microsoft Fabric" in seine Power Apps eingefügt, sodass Dynamics-365- und Power-Platform-Daten direkt mit Fabric verknüpft werden können.

Mirroring dient dazu, vorhandene Cloud-Data-Warehouses und -Datenbanken dem Workload Synapse Data Warehouse hinzuzufügen und dort zu verwalten. Die Funktion repliziert dafür einen Snapshot der Datenbank auf OneLake in Delta Parquet-Tabellen und hält die Kopie nahezu in Echtzeit synchron. Sobald die Quelldatenbank angeschlossen ist, funktionieren Features wie Shortcuts, der Direct-Lake-Modus in Power BI und das übergreifende Sicherheitsmodell laut Hersteller sofort. In Kürze sollen auch Kunden von Azure Cosmos DB, Azure SQL DB, Snowflake und Mongo DB die Möglichkeit bekommen, über diese Spiegelung auf ihre Daten in OneLake zuzugreifen. 2024 sollen dann weitere Datenquellen hinzukommen.

Daten aus Microsoft 365 lassen sich für Fabric bereitstellen

Microsoft hat ferner angekündigt, die bisher nur im JSON-Format angebotenen Daten von Microsoft 365 künftig auch im Delta-Parquet-Format bereitzustellen und so eine einfache Integration in OneLake zu ermöglichen. Durch die native Integration in Microsoft Graph, dem einheitlichen Datenmodell für Produkte wie Teams, Outlook oder SharePoint, könnten Anwender damit auch die großen Mengen an Arbeitsdaten, die sich in der Microsoft-365-Welt ansammelten, für Fabric bereitstellen.

Microsoft verspricht Kunden, die Ihren gesamten Datenbestand in OneLake konsolidieren, dass sie dort Domänen, Unterdomänen und Arbeitsbereiche verwenden können, um Ihre Daten in einem "logischen Datengeflecht" zu organisieren. So würden eine föderierte Governance und eine granulare Kontrolle möglich, während die Beschäftigten im Unternehmen über eine intuitiv nutzbare, personalisierte Datendrehscheibe alle Daten finden könnten.

Data-Spezialisten positionieren sich als Fabric-Partner

Fabric könnte ein Gamechanger im Markt für Big Data/Analytics werden. Eine Reihe anderer Anbieter, darunter SAS, Teradata, Qlik, Fivetran und Informatica, haben zeitgleich Ankündigungen veröffentlicht, um sich in die Microsoft-Plattform einzuklinken und so weiter im Spiel zu bleiben, sollten sich Anwender für Fabric als Hauptdatenplattform entscheiden. Sie wissen, dass viele Kunden unter dem Druck, in Sachen Analytics und KI Fortschritte zu machen, an der Konsolidierung ihrer Datenplattformen arbeiten. Gleichzeitig fürchten die Unternehmen oft, sich noch tiefer in die Abhängigkeit von Microsoft zu begeben, als es ohnehin schon der Fall ist.

Immerhin gibt es noch jede Menge Konkurrenz. Beispielsweise will sich auch Snowflake als die Plattform präsentieren, die sowohl Data Lakes als auch Warehouses unterstützt und zudem in der Lage ist, externe Datenquellen über das Apache Iceberg-Tabellenformat abzufragen, eine Technologie, die auch Cloudera und Google unterstützen. Auch Snowflake glaubt nach eigenem Bekunden an die Eliminierung von Datenkopien, um die Verwaltung zu vereinfachen und maximale Effizienz zu erreichen.

Databricks bestätigte gleichzeitig mit der Bekanntgabe von Microsofts Fabric-Neuigkeiten die komplette Überarbeitung seiner Lakehouse-Plattform mit der so genannten Data-Intelligence-Schicht Lakehouse IQ. Der neue Plan von Databricks sieht die Einbindung von Technologien vor, die mit der 1,3 Milliarden Dollar teuren Übernahme von MosaicML ins Unternehmen kamen, einem Startup mit Fokus auf Generative AI. Databricks möchte nach eigenen Angaben eine Retrieval Augmented Generation (RAG) einführen, mit der Kunden "hochqualitative Conversational Agents auf ihren eigenen Daten" erstellen können. Produktdetails wurden noch nicht bekannt gegeben.

Bei all den schönen Ankündigungen weist allerdings The Register auf ein grundsätzliches Problem hin, dass noch nicht gelöst sei: In heutigen Data-Warehouse und BI-Umgebungen greifen manchmal Hunderte oder sogar Tausende von Benutzern gleichzeitig auf die Datenbank zu. Spezialanbieter arbeiten seit Jahren mit besonderer Hardware oder Abfrageoptimierung, um diesem Problem zu begegnen. Cloud-basierte Data-Warehouses können manches durch das Hinzufügen von Knoten wettmachen, aber für die Benutzer entstünden oft immense Kosten. (hv)