Neue Tools für den Bau von Datenarchitekturen

Databricks stellt Lakehouse-Framework Open-Source

29.06.2022
Von  und
Martin Bayer ist Chefredakteur von COMPUTERWOCHE, CIO und CSO. Spezialgebiet Business-Software: Business Intelligence, Big Data, CRM, ECM und ERP.
Anirban Ghoshal ist Senior Writer für Enterprise-Software, Datenbanken und Cloud-Infrastruktur bei unserer US-Schwesterpublikation InfoWorld.
An der Schnittstelle zwischen Datenspeichern und Analyse-Tools braucht es die richtigen Frameworks. Databricks stellt seine Delta-Lake-APIs Open-Source. Doch die Konkurrenz wächst.
Nur Daten in einen Data Lake zu pumpen, reicht nicht aus. Es braucht die richtigen Verbindungen zu Analyse-, KI- und ML-Tools.
Nur Daten in einen Data Lake zu pumpen, reicht nicht aus. Es braucht die richtigen Verbindungen zu Analyse-, KI- und ML-Tools.
Foto: ArtemisDiana - shutterstock.com

Databricks hat angekündigt, alle Delta-Lake-APIs im Rahmen der Veröffentlichung von Release 2.0 Open-Source zu stellen. Außerdem würden sämtliche Erweiterungen von Delta Lake der Linux Foundation zur Verfügung gestellt. Bei Delta Lake handelt es sich um ein von Databricks entwickeltes Speicher-Framework für den Aufbau von Lakehouse-Architekturen. Es verbindet bestehende Data Lakes mit Compute-Engines wie Spark, Kafka, PrestoDB, Flink, Trino und Hive, und bietet APIs für Entwicklungsumgebungen wie Scala, Java, Rust, Ruby und Python.

Zuletzt hatten Databricks Konkurrenten wie AWS, Cloudera, Google (Big Lake), HPE, Microsoft, Oracle und SAP sich offen gefragt, ob Delta Lake nun quelloffen oder proprietär sei. "Die neue Ankündigung sollte für Kontinuität und Klarheit bei den Nutzern sorgen", sagt Matt Aslett, Research Director bei Ventana Research. "Mit den Ankündigungen räumt Databricks Bedenken von Kunden und Kritik von Wettbewerbern aus dem Weg", ergänzt Doug Henschen, Principal Analyst bei Constellation Research. Databricks-Kunden könnten nun darauf vertrauen, dass ihre Daten auf einer offenen Plattform liegen und nicht an Delta Lake gebunden sind.

Databricks, das 2013 von den Entwicklern von Apache Spark gegründet wurde, bezeichnet Delta Lake als Data Lakehouse, eine Datenarchitektur, die sowohl Speicher- als auch Analysefunktionen bietet. Im Gegensatz dazu werden Daten in den bekannteren Architekturen einfach abgelegt - nativ im Data Lake und strukturiert (SQL-Format) im Data Warehouse.

"Von Anfang an hat sich Databricks für offene Standards und die Open-Source-Community engagiert", beteuert Ali Ghodsi, Mitbegründer und CEO von Databricks. Offene Data Lakehouses würden sich zum Standard dafür entwickeln, wie Unternehmen mit ihren Daten und KI umgehen. Delta Lake, MLflow und Spark bildeten den Kern dieser architektonischen Transformation.

Databricks werde sich für offene Standards und die Open-Source-Community einsetzen, verspricht Ali Ghodsi, Mitbegründer und CEO von Databricks.
Databricks werde sich für offene Standards und die Open-Source-Community einsetzen, verspricht Ali Ghodsi, Mitbegründer und CEO von Databricks.
Foto: Databricks

Mit Delta Lake 2.0 will Databricks die Abfrageleistung von Data Lakes verbessern. Anwender sollen damit ein hoch performantes Data Lakehouse auf Basis offener Standards aufbauen können, verspricht der Anbieter. Der Delta Lake 2.0 Release Candidate ist ab sofort verfügbar und soll voraussichtlich noch in diesem Jahr vollständig freigegeben werden, hieß es.

Iceberg und Hudi machen Delta Lake Konkurrenz

Allerdings bekommt Databricks zunehmend Konkurrenz für Delta Lake. Dazu zählen Apache Hudi und Apache Iceberg. Hudi wurde ursprünglich von Uber entwickelt, um inkrementelle Aktualisierungen über spaltenförmige Datenformate zu ermöglichen. Es unterstützt das Einlesen von Daten aus unterschiedlichen Quellen, hauptsächlich Apache Spark und Apache Flink. Zudem bietet es auch ein Spark-basiertes Tool zum Lesen aus externen Quellen wie Apache Kafka.

Iceberg geht auf Entwicklungen von Netflix zurück, um die Herausforderungen in Bezug auf Leistung, Skalierbarkeit und Verwaltbarkeit zu bewältigen, die bei der Speicherung großer Hive-partitionierter Datensätze in AWS S3 auftreten. Iceberg unterstützt Apache Spark sowohl für Lese- als auch für Schreibvorgänge, einschließlich des strukturierten Streamings von Spark. Zudem wird Apache Flink für das Lesen wie auch das Schreiben unterstützt, Apache Hive für das Lesen von Daten.

Viele Anbieter von Lakehouse-Technologien würden sich derzeit auf Apache Iceberg als Alternative zu Delta Lake konzentrieren, berichtet Ventana-Analyst Aslett. Im April kündigte Google die Unterstützung seines Big Lake für Iceberg an, und Anfang Juni gab Snowflake bekannt, mit seinen Lösungen künftig Apache-Iceberg-Tabellen anbinden zu wollen.

Neue Tools für Machine Learning und Apache Spark

Databricks hat zudem die zweite Version von MLflow veröffentlicht - eine Open-Source-Plattform für die Verwaltung des gesamten Lebenszyklus von Machine-Learning-Lösungen (MLOps). MLflow 2.0 wird mit MLflow Pipelines ausgeliefert. Data Scientists sollen damit vordefinierte, produktionsreife Vorlagen auf der Grundlage des von ihnen erstellten Modelltyps erhalten. Das beschleunige die Modellentwicklung, versprechen die Databricks-Verantwortlichen.

Darüber hinaus arbeitet Databricks an Erweiterungen für das Spark-Ökosystem. Zwar lasse sich Spark nahtlos skalieren, um Datensätze aller Größen zu verarbeiten, hieß es. Der Mangel an Remote-Konnektivität und die Belastung durch Anwendungen, die auf dem Treiberknoten entwickelt und ausgeführt werden, behinderten jedoch oft die Datenanwendungen. Um dieses Problem zu beheben, hat Databricks Spark Connect eingeführt, eine Client- und Server-Schnittstelle für Apache Spark, die auf der DataFrame-API basiert. Damit ließen sich dem Anbieter zufolge Client und Server für eine bessere Stabilität entkoppeln und eine integrierte Remote-Konnektivität aufbauen. Mit Spark Connect könnten Nutzer von jedem Gerät aus auf Spark zugreifen.

Databricks gehört laut Forbes zu den heißesten Cloud-Companies

In Zusammenarbeit mit der Spark-Community kündigte Databricks außerdem Project Lightspeed an, um die nächste Generation der Spark-Streaming-Engine zu entwickeln. Dies sei notwendig, da mit der zunehmenden Vielfalt von Anwendungen, die sich mit Streaming-Daten beschäftigen, neue Anforderungen entstanden seien. Spark Structured Streaming habe sich seit den Anfängen des Streaming aufgrund seiner Benutzerfreundlichkeit, Leistung und seines großen Entwickler-Ökosystems als eine Art De-facto-Standard durchgesetzt. Projekt Lightspeed zielt darauf ab, die Leistung des Streaming-Systems zu verbessern, das Ökosystem für Konnektoren zu unterstützen, die Funktionalität für die Verarbeitung von Daten mit neuen Operatoren und APIs zu erweitern sowie die Bereitstellung, den Betrieb, die Überwachung und die Fehlerbehebung zu vereinfachen.