Hersteller arbeiten mit grundverschiedenen Konzepten

Datenbanken sollen die Infoflut bändigen

04.05.2001
SAN MATEO (CW) - Die Menge an Daten, die weltweit gespeichert werden, wächst explosionsartig. Eine zusätzliche Schwierigkeit ist für viele Unternehmen, dass die Informationen über mehrere Orte verteilt sind. Tom Sullivan, leitender Redakteur bei der CW-Schwesterpublikation "Infoworld", hat die Konzepte der führenden Datenbankhersteller unter die Lupe genommen.

Die kalifornische Universität Berkeley hat das Wachstum von Daten berechnet und ist zu dem Ergebnis gekommen, dass in den zurückliegenden 300000 Jahren Menschheitsgeschichte zwölf Exabyte an Information angehäuft wurde. Die nächsten zwölf Exabyte, so die Studie, werden in den nächsten zweienhalb Jahren generiert werden. Aber neben den Daten wächst auch die Zahl der Datenquellen in Unternehmen und im privaten Bereich stark an. Problematisch ist die Verwaltung dieser Datenflut: Nur etwa 20 Prozent der weltweiten Daten sind in relationalen Datenbanken gespeichert. Der Rest liegt in Form von Dateien und unstrukturierten Daten auf Servern und PCs, ganz zu schweigen von den Bergen an Papierdokumenten, die darauf warten, eingescannt zu werden.

Mit DBs gegen das ChaosDatenbankhersteller bemühen sich zunehmend darum, den Wildwuchs an Datentypen und Datenquellen zu beherrschen. So auch IBM, wie Jeff Jones von der Data Management Group der Armonker erklärt: "Wir versuchen, jede Art von Daten in den Griff zu bekommen. Unser Ziel ist es, Daten-Management auf das Universum der nichtrelationalen Daten auszuweiten."

In den letzten Jahren hat auf dem Datenbankmarkt eine starke Konsolidierung stattgefunden. Kleinere Hersteller sind von großen geschluckt worden, wie soeben beim IBM-Informix-Deal geschehen, andere Anbieter wie Sybase konzentrieren sich auf vertikale Märkte wie den Finanzsektor. Dadurch haben sich zwei konkurrierende Konzepte herauskristallisiert, die den Markt dominieren: Oracles zentralistische Philosophie und IBMs Modell der föderierten Datenbanken.

Zentralistisch vs. föderiertIBMs Ansatz geht davon aus, dass nur wenige Kunden ihre relationalen Daten in einer zentralen Datenbank gespeichert haben. Deshalb versucht man, Daten unabhängig von ihrem Speicherort zu managen, selbst wenn sie in Datenbanken von Mitbewerbern liegen. Einer der größten Vorteile des föderierten Konzepts ist, dass Unternehmen ihre Daten nicht von verschiedenen Quellen wie nichtrelationalen oder Legacy-Systemen in ein Repository migrieren müssen. Denn während die Migration von kleinen Datenmengen kaum problematisch ist, birgt die Übertragung von Multi-Terabyte-Data-Warehouses oft unlösbare Schwierigkeiten.

Die British Library in London beispielsweise, die über einen Mix aus verschiedenen Datenbanken sowie relationalen und unstrukturierten Daten verfügt, hat sich für den föderierten Ansatz entschieden. Die Bibliothek hatte über 150 Millionen Einzeleinträge zu katalogisieren und zu archivieren. Die Herausforderung war, verschiedenartiges Material - von kürzlich digitalisierten mittelalterlichen Manuskripten bis hin zum wachsenden Inventar an digitalen Inhalten - zusammenzubringen und es über ein Browser-basiertes Interface zugänglich zu machen. Laut Helen Shelton, der stellvertretenden Direktorin der Sammlung, soll im Lauf der Zeit auf die gesamte Sammlung der British Library über das Web zugegriffen werden können.

Oracle, IBMs Hauptkonkurrent, verfolgt demgegenüber eine völlig andere Idee des zentralisierten Managements. Dabei werden alle Daten eines Unternehmens in einer Oracle-Datenbank gespeichert, wo sie relativ einfach zu managen sind. "Ich denke, wir haben grundlegende philosophische Meinungsverschiedenheiten mit IBM", sagt denn auch Jeremy Burton, Senior Vice President Products bei Oracle. "Unserer Ansicht nach bewegt sich die Industrie weg vom Distributed-Computing-Modell." Die größten Vorteile eines zentralisierten Daten-Managements sind laut Burton die niedrigen Kosten, eine höhere Geschwindigkeit und die bessere Informationsqualität, weil sich alles an einem Platz befindet. Dabei ignoriere Oracle nicht die Notwendigkeit von Zugriffen auf Daten außerhalb der Datenbank-Engine. Haben Unternehmen Datenquellen im Internet, können sie laut Burton die Query-Engine zur Indexierung nutzen.

Zu den großen Oracle-Anwendern zählt unter anderem die Siemens AG. Nach Angaben von Ralf Zwanziger, einem leitenden Ingenieur beim Münchner Konzern, setzt das Unternehmen Oracle-Datenbanken in Verbindung mit dem Internet File System (IFS) ein. Teile des Intranet wurden von einem Server in die Datenbank verlagert, wo es nun von einem Interface aus verwaltet werden kann. Zwar konnte Zwanziger keine genauen Angaben über Kosteneinsparungen machen, das zentralisierte Management mache aber die Administration einfacher und billiger.

Viele Analysten sind allerdings der Ansicht, dass das föderierte Konzept von IBM das bessere ist, weil es zwei Ansätze vereint. "Mit IBM kann man entweder auf Föderationen bauen oder alle Daten wegen der besseren Skalierbarkeit in einer zentralen Datenbank speichern", sagt etwa Peter Urban, Senior Analyst bei AMR Research in Boston. Dennoch wird sich die Skalierbarkeit mit der nächsten Version 9i und den Real Application Clusters deutlich verbessern, so Urban. Mit diesem Feature können Kunden in einem Cluster Server hinzufügen oder entfernen, ohne die Server-Farm herunterzufahren.

Dataquest und IDC stufen Oracle und IBM als die wichtigsten Player am Markt ein. Gleichzeitig hat Microsoft in den letzten Jahren mit jeder neuen Version seiner "SQL-Server"-Datenbank kontinuierlich Marktanteile gewonnen. Dieser Erfolg ist in erster Linie auf die im Vergleich zu den beiden Konkurrenten niedrigen Preise zurückzuführen.

Microsoft verfolgt mit seiner Datenbank eine Strategie, die eine Mischform aus Oracles und IBMs Verfahren darstellt. "Wir gehen davon aus, dass man ein zentralisiertes Management von Metadaten benötigt, um über verschiedene Quellen und Typen von Daten hinweg suchen zu können", beschreibt Steve Murchie, Microsofts Group Product Manager SQL Server, das eigene Verfahren.

Content- statt Daten-ManagementObwohl sich die verschiedenen Ansätze unterscheiden, zeichnet sich ab, dass alle Anbieter weggehen vom einfachen Managen von Daten und Metadaten hin zum Verwalten eines breiter gefassten Begriffs von Content. Daten-Management verwandelt sich vor diesem Hintergrund zunehmend in Content-Management, wobei die Datenbankanbieter mehr und mehr Funktionen in ihre Produkte integrieren - so etwa Data Mining und analytische Funktionen. Konsequenterweise hat so auch die IBM angekündigt, dass es ihre Content-Management-Software, die derzeit einzeln vertrieben wird, in Zukunft in die Datenbank integrieren will.

Da die Anwender im E-Business-Bereich immer mehr Funktionalität über das Internet bereitstellen wollen, steigt auch der Bedarf an sofort verfügbaren Daten. Das wird nach Ansicht der Marktforscher die Nachfrage nach Datenbanken weiter anheizen. In einer Umfrage unter IT-Verantwortlichen hat AMR Research herausgefunden, dass für 2001 und 2002 etwa die Hälfte der Befragten Datenbanken als ihren wichtigsten Investitionsbereich bezeichneten. Laut Dataquest soll der Markt für Datenbanken bis 2004 auf 12,7 Milliarden Dollar anwachsen.

Zukunft der DB-TechnikGanz nach den Gepflogenheiten der Softwarebranche werben auch Datenbankhersteller mit ihren nächsten Produktversionen, lange bevor diese allgemein verfügbar sind. Hinter den Kulissen jedoch, in den Firmenzentralen oder den Forschungslabors, arbeiten die Hersteller an Funktionen und Techniken für zukünftige Produktgenerationen. So entwickeln beispielsweise in den Silicon Valley Labs von IBM Bruce Lindsay und seine Kollegen die nächste Generation der Datenbank-Replikations-Technologie. Schwerpunkt ist dabei die Replikation von geografisch verteilten Datenbanken, die in der Lage sind, voneinander in Echtzeit Updates zu erhalten. Die erste Generation dieser Technik ist bereits in der aktuellen DB2-Version enthalten, jedoch ist sie nicht so schnell, wie sie sein sollte.

IBM bastelt auch an einem Abfrage-Optimierer, der den optimalen Weg zu bestimmten Daten lernt und von da an diesen Pfad automatisch sucht. Zusätzlich arbeitet Big Blue auch an einer wartungsarmen Datenbank namens "Smart" (Self Managing and Resource Tuning). Langfristig will man erreichen, dass die Datenbank auf Wunsch völlig wartungsfrei ist.

Laut Sybase-Chef John Chen ist sein Unternehmen führend bei der Entwicklung von administrations- und wartungsfreien Datenbanken. Er räumt zwar ein, dass bis dahin noch einige Entwicklungsarbeit zu leisten ist, rechnet in naher Zukunft aber bei allen Herstellern mit einer derartigen Technik.

Microsoft plant derzeit eine temporale Datenbank. Es handelt sich dabei um ein alternatives Datenbankkonzept, das auf das Speichern und Abfragen von zeitlichen oder zeitabhängigen Daten spezialisiert ist. Zudem entwickeln die Redmonder einen vereinheitlichten Suchmechanismus, der den Zugriff auf Daten von verschiedenartigen Backend-Quellen erleichtern soll. Laut Steve Murchie von Microsoft geht es zukünftig vor allem darum, dass die Anwender ein Verständnis von den Daten haben, die sie speichern. "Eine Organisation muss nicht nur Daten speichern und managen können, sie muss auch in der Lage sein, sie zu verstehen", so Murchie. Es sei wichtiger, die Daten zu verstehen, als sie zu managen.

Oracle hält sich über seine Zukunftspläne bedeckt und konzentriert sich momentan auf seine für das zweite Quartal angekündigte Datenbank 9i. IBM will Mitte des Jahres eine neue Version von DB2 herausbringen, wobei derzeit unklar ist, ob es sich um ein kleineres oder ein größeres Update handelt. Auch Microsoft hat derzeit keine offiziellen Pläne für die nächste Version des SQL Server.

Abb: Umsatzentwicklung bei DBs nach Betriebssystemen

PC-Server vorn: Von den Umsatzfeldern her werden Datenbanken unter Windows und Linux bis 2003 einen Marktanteil von 42 Prozent haben. Quelle: IDC