Web

Datenbanken sollen die Infoflut bändigen

07.05.2001
Die Menge an Daten, die weltweit gespeichert werden, wächst explosionsartig. Eine zusätzliche Schwierigkeit ist für viele Unternehmen, dass die Informationen über mehrere Orte verteilt sind.

MÜNCHEN (COMPUTERWOCHE) - Die Menge an Daten, die weltweit gespeichert werden, wächst explosionsartig. Eine zusätzliche Schwierigkeit ist für viele Unternehmen, dass die Informationen über mehrere Orte verteilt sind. Tom Sullivan, leitender Redakteur bei der CW-Schwesterpublikation "Infoworld", hat die Konzepte der führenden Datenbankhersteller unter die Lupe genommen.

Die kalifornische Universität Berkeley hat das Wachstum von Daten berechnet und ist zu dem Ergebnis gekommen, dass in den zurückliegenden 300.000 Jahren Menschheitsgeschichte zwölf Exabyte an Information angehäuft wurde. Die nächsten zwölf Exabyte, so die Studie, werden in den nächsten zweieinhalb Jahren generiert werden. Aber neben den Daten wächst auch die Zahl der Datenquellen in Unternehmen und im privaten Bereich stark an. Problematisch ist die Verwaltung dieser Datenflut: Nur etwa 20 Prozent der weltweiten Daten sind in relationalen Datenbanken gespeichert. Der Rest liegt in Form von Dateien und unstrukturierten Daten auf Servern und PCs, ganz zu schweigen von den Bergen an Papierdokumenten, die darauf warten, eingescannt zu werden.

Mit DBs gegen das Chaos

Datenbankhersteller bemühen sich zunehmend darum, den Wildwuchs an Datentypen in den Griff zu bekommen. So auch IBM, wie Jeff Jones von der Data Management Group der Armonker erklärt: "Wir versuchen, jede Art von Daten in den Griff zu bekommen. Unser Ziel ist es, Daten-Management auf das Universum der nichtrelationalen Daten auszuweiten."

In den letzten Jahren hat auf dem Datenbankmarkt eine starke Konsolidierung stattgefunden. Kleinere Hersteller sind von großen geschluckt worden, wie soeben beim IBM-Informix-Deal geschehen, andere Anbieter wie Sybase konzentrieren sich auf vertikale Märkte wie den Finanzsektor. Dadurch haben sich zwei konkurrierende Konzepte herauskristallisiert, die den Markt dominieren: Oracles zentralistische Philosophie und IBMs Modell der föderierten Datenbanken.

Zentralistisch versus föderiert

IBMs Ansatz geht davon aus, dass nur wenige Kunden ihre relationalen Daten in einer zentralen Datenbank gespeichert haben. Deshalb versucht man, Daten unabhängig von ihrem Speicherort zu managen, selbst wenn sie in Datenbanken von Mitbewerbern liegen. Einer der größten Vorteile des föderierten Konzepts ist, dass Unternehmen ihre Daten nicht von verschiedenen Quellen wie nichtrelationalen oder Legacy-Systemen in ein Repository migrieren müssen. Denn während die Migration von kleinen Datenmengen kaum problematisch ist, birgt die Übertragung von Multi-Terabyte-Data-Warehouses oft unlösbare Schwierigkeiten.

Die British Library in London beispielsweise, die über einen Mix aus verschiedenen Datenbanken sowie relationalen und unstrukturierten Daten verfügt, hat sich für den föderierten Ansatz entschieden. Die Bibliothek hatte über 150 Millionen Einzeleinträge zu katalogisieren und zu archivieren. Die Herausforderung war, verschiedenartiges Material - von kürzlich digitalisierten mittelalterlichen Manuskripten bis hin zum wachsenden Inventar an digitalen Inhalten - zusammenzubringen und es über ein Browser-basiertes Interface zugänglich zu machen. Laut Helen Shelton, der stellvertretenden Direktorin der Sammlung, soll im Lauf der Zeit auf die gesamte Sammlung der British Library über das Web zugegriffen werden können. Die British Library arbeitet auch mit anderen Organisationen wie der Königlichen Bibliothek der Niederlande in Den Haag zusammen, um ein abfragbares Repository für Sammlungen aus verschiedenartigen Objekten wie Dokumenten, Bildern und Gegenständen aufzubauen.

Oracle, IBMs Hauptkonkurrent, verfolgt demgegenüber eine völlig andere Idee des zentralisierten Managements. Dabei werden alle Daten eines Unternehmens in einer Oracle-Datenbank gespeichert, wo sie relativ einfach zu managen sind. "Ich denke, wir haben grundlegende philosophische Meinungsverschiedenheiten mit IBM", sagt denn auch Jeremy Burton, Senior Vice President Products bei Oracle. "Unserer Ansicht nach bewegt sich die Industrie weg vom Distributed-Computing-Modell." Die größten Vorteile eines zentralisierten Daten-Managements sind laut Burton die niedrigen Kosten, eine höhere Geschwindigkeit und die bessere Informationsqualität, weil sich alles an einem Platz befindet. Dabei ignoriere Oracle nicht die Notwendigkeit von Zugriffen auf Daten außerhalb der Datenbank-Engine. Haben Unternehmen Datenquellen im Internet, können sie laut Burton die Query-Engine zur Indexierung nutzen.

Zu den großen Oracle-Anwendern zählt unter anderem die Siemens AG. Nach Angaben von Ralf Zwanziger, einem leitenden Ingenieur beim Münchner Konzern, setzt das Unternehmen Oracle-Datenbanken in Verbindung mit dem Internet File System (IFS) ein. Teile des Intranet wurden von einem Server in die Datenbank verlagert, wo es nun von einem Interface aus verwaltet werden kann. Zwar konnte Zwanziger keine genauen Angaben über Kosteneinsparungen machen, das zentralisierte Management mache aber die Administration einfacher und billiger.

Viele Analysten sind allerdings der Ansicht, dass das föderierte Konzept von IBM das bessere ist, weil es zwei Ansätze vereint. "Mit IBM kann man entweder auf Föderationen bauen oder alle Daten wegen der besseren Skalierbarkeit in einer zentralen Datenbank speichern", sagt etwa Peter Urban, Senior Analyst bei AMR Research in Boston. Dennoch werde sich die Skalierbarkeit mit der nächsten Version "9i" und den Real Application Clusters deutlich verbessern, so Urban. Mit diesem Feature können Kunden in einem Cluster Server hinzufügen oder entfernen, ohne die Server-Farm herunterzufahren.

Microsoft geht einen Mittelweg

Dataquest und IDC stufen Oracle und IBM als die wichtigsten Player am Markt ein. Gleichzeitig hat Microsoft in den letzten Jahren mit jeder neuen Version seiner "SQL-Server"-Datenbank kontinuierlich Marktanteile gewonnen. Dieser Erfolg ist in erster Linie auf die im Vergleich zu den beiden Konkurrenten niedrigen Preise zurückzuführen.

Microsoft verfolgt mit seiner Datenbank eine Strategie, die eine Mischform aus Oracles und IBMs Verfahren darstellt. "Wir gehen davon aus, dass man ein zentralisiertes Management von Metadaten benötigt, um über verschiedene Quellen und Typen von Daten hinweg suchen zu können", beschreibt Steve Murchie, Microsofts Group Product Manager SQL Server, das eigene Verfahren.

Content- statt Daten-Management

Obwohl sich die verschiedenen Ansätze unterscheiden, zeichnet sich ab, dass alle Anbieter weggehen vom einfachen Managen von Daten und Metadaten hin zum Verwalten eines breiter gefassten Begriffs von Content. Daten-Management verwandelt sich vor diesem Hintergrund zunehmend in Content-Management, wobei die Datenbankanbieter mehr und mehr Funktionen in ihre Produkte integrieren - so etwa Data Mining und analytische Funktionen. Konsequenterweise hat so auch die IBM angekündigt, dass es ihre Content-Management-Software, die derzeit einzeln vertrieben wird, in Zukunft in die Datenbank integrieren will.

Da die Anwender im E-Business-Bereich immer mehr Funktionalität über das Internet bereitstellen wollen, steigt auch der Bedarf an sofort verfügbaren Daten. Das wird nach Ansicht der Marktforscher die Nachfrage nach Datenbanken weiter anheizen. In einer Umfrage unter IT-Verantwortlichen hat AMR Research herausgefunden, dass für 2001 und 2002 etwa die Hälfte der Befragten Datenbanken als ihren wichtigsten Investitionsbereich bezeichneten. Laut Dataquest soll der Markt für Datenbanken bis 2004 auf 12,7 Milliarden Dollar anwachsen.