Hadoop, NoSQL, NewSQL

Wie Big Data den Datenbankmarkt umkrempelt

Wolfgang Herrmann ist Deputy Editorial Director der IDG-Publikationen COMPUTERWOCHE und CIO. Zuvor war er Chefredakteur der Schwesterpublikation TecChannel und stellvertretender Chefredakteur COMPUTERWOCHE. Zu seinen thematischen Schwerpunkten gehören Cloud Computing, Data Center, Virtualisierung und Big Data.
Mehr als 30 Jahre lang haben klassische relationale Datenbanksysteme (RDBMS) den Markt dominiert. Doch im Zeitalter von Big Data und Hadoop wird sich das schon bald ändern, erwarten Experten.

Eine ganze Armada neuer Software-Player will sich ein Stück vom milliardenschweren Datenbank-Markt sichern. Die Ansätze der Newcomer unterscheiden sich, doch eines haben alle gemein: einen klaren Fokus auf Big Data. Die wichtigsten Treiber dieser Entwicklung lassen sich mit drei Begriffen beschreiben: Volume, Velocity und Variety. Gemeint ist damit, dass Daten in und um Unternehmen immer schneller und in immer größeren Mengen entstehen; zugleich nimmt die Vielfalt der unterschiedlichen Datenformate und -strukturen weiter zu (siehe auch: Analytics- und Big Data-Software: Der Markt ist reifer geworden).

Traditionelle relationale Datenbankmanagement-Systeme (Relational Database Management Systems, RDBMS) sind für derartige Herausforderungen nicht konzipiert, erklärt Gregory Piatetsky-Shapiro, Chef der auf Analytics spezialisierten Beratungsfirma KDnuggets: "Sie lassen sich nicht für sehr große, schnell entstehende oder unterschiedlich strukturierte Datenmengen skalieren."

Diese Erfahrung machte beispielsweise die international tätige Marketing-Services-Agentur Harte Hanks. Bis 2013 nutzte das Unternehmen eine Kombinationen verschiedener Datenbanken, darunter Microsoft SQL Server und Oracle Real Application Clusters (RAC). "Unsere Systeme waren einfach nicht in der Lage, die wachsenden Datenmengen schnell genug zu verarbeiten", berichtet Technikchef Sean Lannuzzi. Das Modell, immer neue Server zuzukaufen stoße an Grenzen. Deshalb habe man nach einer anderen Art der Skalierung gesucht, ohne dabei alles auf den Kopf zu stellen. Lannuzi: "Wir konnten nicht einfach auf Hadoop umsteigen."

Harte Hanks entschied sich für eine Lösung des kalifornischen Startups Splice Machine. Diese setze eine komplette SQL-Datenbank auf die Hadoop-Plattform, erläutert der Manager. Auf diese Weise ließen sich bestehende Anwendungen einfach anbinden. Die ersten Erfahrungen mit dem System seien vielversprechend. Sowohl die Performance als auch die Stabilität und Verfügbarkeit hätten sich deutlich verbessert.

Das kalifornische Startup Splice Machine kombiniert SQL-Technik mit InMemory- und Hadoop-Konzepten.
Das kalifornische Startup Splice Machine kombiniert SQL-Technik mit InMemory- und Hadoop-Konzepten.
Foto: Splice Machine

Oracle im Visier der Big-Data-Startups

Splice Machine ist ein Beispiel für eine neue Generation von SQL-Alternativen, die unter dem Begriff NewSQL diskutiert wird und der Marktforscher hohe Wachstumsraten zutrauen. "Unsere Philosophie ist es, SQL-Systeme um eine Scale-out-Architektur zu ergänzen", erläutert Splice-CEO Monty Zweben. "Es ist Zeit für etwas Neues. Aber wir möchten es so gestalten, dass Kunden ihre bestehenden Anwendungen nicht umschreiben müssen." Auf der Website von Splice ist denn auch sofort erkennbar, welche Art von Kunden man gewinnen möchte: "First RDBMS Powered by Hadoop and Spark" steht dort in dicken Lettern, und darunter: "Replace Oracle: Up to 20x faster at 1/4 the Cost"

Für Carl Olofson, Research Vice President beim Marktforscher IDC, sind die Bedingungen derzeit perfekt, um neue Datenbanktechniken entstehen zu lassen. "Mit der heute verfügbaren IT-Infrastruktur lassen sich große Datenmengen viel schneller und flexibler verarbeiten. Früher mussten Unternehmen ihre Datensammlungen auf eine Harddisk packen und sie dazu noch in ein ganz bestimmtes Format bringen." Heute gebe es eine Reihe von Techniken, die entscheidende Verbesserungen brächten. Olofson nennt beispielweise die 64-Bit-Adressierbarkeit, die größere Adressräume erlaubt, deutlich schnellere Netzwerke oder die Möglichkeit, ein Vielzahl von Rechnern zu einer einzigen großen Datenbank zusammenzuschnüren.

Splice Machine ist nur einer von vielen Newcomern im kommerziellen Datenbankgeschäft. Dazu gehört beispielsweise auch das Bostoner Startup Deep Information Sciences, das in seiner hochskalierbaren "DeepSQL"-Datenbank Machine-Learning-Elemente für die Adressierung der Daten verwendet. Trotzdem soll das relationale Datenbank-Modell dabei erhalten bleiben; bestehende Applikationen können laut dem Anbieter unverändert genutzt werden. Ein weiterer Neuling, Algebraix Data, beansprucht für sich, "das erste universelle Modell für das Daten-Management" auf einer mathematischen Grundlage entwickelt zu haben.

Die SQL-Platzhirsche geben sich gelassen

Die etablierten Datenbankriesen geben sich ob der neuen Konkurrenten demonstrativ gelassen. Viele der Startups würden nur alte Konzepte aufpolieren oder mit einem anderen Dreh präsentieren, lästert etwa Andrew Mendelsohn, Chef von Oracles Database Server Technologies-Sparte. "Es ist eine neue Generation von Kids, die aus der Schule kommt und Dinge neu erfinden will." Für ihn ist SQL noch immer "die einzige Sprache, die es Business-Analysten erlaubt, Fragen zu stellen und Antworten zu bekommen - sie müssen dazu keine Programmierer sein." Der "Big Market", so seine Überzeugung, werde immer relational sein. Mit Blick auf neue Datentypen habe Oracle zudem bereits in den 90er Jahren damit begonnen, in seinen relationalen Datenbanken auch unstrukturierte Daten zu unterstützen (siehe auch: AWS drängt in den Datenbankmarkt).

Oracle-Manager Mendelsohn: "Der Big Market wird immer relational sein."
Oracle-Manager Mendelsohn: "Der Big Market wird immer relational sein."
Foto: Oracle

NoSQL, MongoDB und die Zukunft der Big-Data-Startups

Dennoch werden RDMS-Alternativen wie die NoSQL-Datenbank MongoDB weiter an Bedeutung gewinnen, erwarten Analysten. Allerdings sind damit auch Einschränkungen für die Nutzer verbunden. So verwenden NoSQL-Datenbanken kein relationales Datenbankmodell und bieten typischerweise auch kein SQL-Interface. "Die jüngeren Alternativen sind funktional weniger komplett und ausgereift als traditionelle RDBM-Systeme", urteilt etwa Rick Greenwald, Research Director bei Gartner. "Einige Anwendungsszenarien lassen sich mithilfe der neuen Player im Markt adressieren, allerdings längst nicht alle, und schon gar nicht mit einer einzigen Technologie". Er erwartet, dass der Preisdruck auf die etablierten Anbieter steigt und diese ihre Systeme kontinuierlich um neue Funktionen erweitern müssen. Die Zukunft der Big-Data-Startups sieht er weniger rosig als manch anderer Analyst: "Einige wenige werden überleben, aber viele werden entweder aufgekauft oder gehen pleite." (wh)

»

Erfolgreiche Data-Lake Strategien mit EMC Isilon

Am 4. Februar 2016 laden COMPUTERWOCHE und EMC zum Isilon Tag nach München. Neben spannenden Neuerungen rund um EMC Isilon und die zugehörige Intelligence OneFS präsentieren das Deutsches Krebsforschungszentrum und die Intergraph SG&I Deutschland ihre Data-Lake-Strategien.

Zur kostenfreien Anmeldung