Wissensbasierte Erweiterungen integrieren Objektorientierung

Die Zukunft liegt jenseits des Coddschen Datenmodells

21.08.1992

*Hans J. Drukks, Logos, Gesellschaft für wissensbasierte Systeme mbH, Seebarn.

Nicht die relationale Datenbanktechnik, sondern das Coddsche Datenmodell ist überholt. Ein um wissensbasierte Funktionalität erweitertes Relationenmodell könnte auch objektorientierte Datenbank-Management-Systeme einschließen, ohne die spezifischen Vorteile der relationalen DSBMS-Produkte preiszugeben.

Vor zirka 20 Jahren erschien Edgar Codds Arbeit über das relationale Datenmodell (RDM). Etwa zur gleichen Zeit wurde das Codasyl Modell zum Standard erhoben. In der Feature Analysis of Generalized Datebase Management Systems, die das Codasyl-Modell begründete, wurden die Grundbegriffe des Relationenmodells überhaupt nicht erwähnt.

Wie die Sache ausging, ist allgemein bekannt: Das Codasy-Modell hielt sich nicht. Mitte der achtziger Jahre war es so gut wie tot. Die Normierung der Begriffe war von der Software-Industrie nur zögernd aufgenommen worden. Mit der gleichen Zurückhaltung wurde damals allerdings auch das RDM behandelt. Nur wenige hatten begriffen, daß dieses Datenmodell eine strenge mathematische und logische Grundlage besitzt. Doch das änderte sich bald: Die Konzepte des RDM, definiert durch die Abfragesprache SQL, führten zu einem internationalen Standard. Heute nennen fast alle Hersteller ihre Datenbankprodukte relational.

Ein neues Konzept verunsichert heute die Datenbankbenutzer: die Objektorientierung. Das US-Fachblatt "Datamation" ging sogar so weit, einen Artikel zu veröffentlichen, in dem das Ende der relationalen Datenbanktechnologie vorhergesagt wurde. Solche Kassandra-Rufe disqualifizieren ihre Urheber, da sie eine Kleinigkeit übersehen: Jede objektorientierte Datendarstellung beruht auf der Relationentheorie.

Jeder, der relationale DBMS anwendet, wird aufgefordert, komplexe Sachverhalte in elementare (atomare) zu zerlegen. Die Benutzer von relationalen DBMS-Produkten kennen diesen Prozeß als Normalisierung. Diese Normalisierung ist der Preis, den der

Anwender für die Integrität der Daten zu zahlen hat.

Der Begriff "Normalisierung" leitet sich aus der Aussagenlogik ab. Wenn man die Richtigkeit oder Falschheit von zusammengesetzten Aussagen überprüfen will, dann wird die traditionelle Methode- der Wahrheitstabellen sehr schnell unübersichtlich.

Die logiker führen deshalb komplexe Aussagen durch eine Reihe von Umformungen in

Normalformen über. Diese Ausdrücke lassen sehr einfache Schlüsse darüber zu, ob es sich bei den normalisierten Formen um Tautologien oder Kontradiktionen handelt.

In den grundlegenden Konzepten der Software-Entwicklung schwingt das Pendel heute zurück vom Atomismus zum Holismus. Atomismus ist die philosophische Doktrin, die komplexe Phänomene durch ihre elementaren Bestandteile und deren Beziehungen untereinander zu erklären sucht; Holismus dagegen versucht die Erklärung der Elemente eines Systems aus dem Verhalten des Systems als Ganzes herzuleiten.

Relationale DBMS beruhen auf der Doktrin des Atomismus; sie fordern die Zerlegung komplexer Strukturen in elementare Bestandteile. Der Zweck dieser Zerlegung ist die Sicherung der Datenintegrität.

Objektorientierte Datenbank-Management-Systeme implementieren holistische Prinzipien. Sie versuchen, Ganzheiten, also komplexe Entitäten, darzustellen. "Das Ganze ist mehr als die Summe seiner Teile", sagte schon Aristoteles.

Was aber macht das Mehr aus? Es ist die Struktur, die die Ganzheit besitzt und die Teile zu einem Ganzen verbindet.

Der Dualismus zwischen Atomismus und Holismus ist allgemein geläufig. Aus der Sicht des Atomismus lernen unsere ABC-Schützen das Lesen und Schreiben am besten durch das Kennenlernen des Alphabets. Wörter werden aus Zeichen zusammengesetzt. Die Befürworter der Ganzheitsmethode, die Holisten, sind dagegen der Meinung, daß man das Lesen am besten wortweise zu lernen vermag.

Jeder Autobesitzer, der ein Ersatzteil zu beschaffen hatte, kennt die umfangreichen Stücklisten der Ersatzteillager. Diese Stücklisten in Mikrofiches sind eine atomistische Darstellung des Autos. Aus der Darstellung des Autos als Ganzem läßt sich zwar erschließen, daß dieses und jenes teil vorhalnen sein muß, aber aus der Erscheinung des Fahrzeuges und seinem Fahrwerhalten lassen sich keineswegs genaue Maße oder Oberflächenbeschaffenheiten von Ersatzteilen ableiten.

Ein Urteil ist entweder richtig oder falsch

Atomistische und holistische Darstellungen sind unterschiedliche Sichten. Die mathematische Grundlage beider Darstellungsformen ist die allgemeine Beziehungslehre, die heute als "Theorie der Relationen" bezeichnet wird.

Atomismus und Holismus sind keineswegs Ideen des 20 Jahrhunderts. Die atomistische Sicht ist grundlegend für jede analytische Methode. Das wird klar, wenn man untersucht, wie Menschen zu Begriffen kommen. Begriffe bilden die Elemente des Denkens. Die elementare Einheit des Denkens, die einfachste vollständige Denkhandlung, ist nach Aristoteles das Urteil. Alles, was entweder richtig oder falsch ist, wird als Urteil bezeichnet. Ein Urteil versucht, eine Untersheidung in den Dingen zu machen. Der

sprachliche Ausdruck eines Urteils ist die Aussage. Die logische Form eines Urteils nennt man eine Klausel.

Beim Studium des logischen aufbaus von aussagen führte Aristoteles den Begriff "analytisch" ein. Immanuel Kant nahm den Aristotelischen Begriff auf und unterschied zwischen "analytischen" und "synthetischen" Urteilen. In der "Kritik der reinen Vernunft" untersucht er die traditionelle Aristotelische Klausel der Form A ist ein B:

"Entweder das Prädikat B gehört zum Subjekt A als etwas, was in diesem Begriffe A (versteckterweise) enthalten ist, oder B liegt ganz außer dem Begriff A, ob es zwar mit demselben in Verknüpfung steht. Im

ersten Fall nenne ich das Urteil analytisch, in dem anderen synthetisch. Analytische Urteile (die bejahenden) sind also diejenigen, in welchen die Verknüpfung des Pradikats mit dem Subjekt durch Identität, diejenigen aber, in denen diese Verknüpfung ohne Identität gedacht wird, sollen synthetische Urteile heißen."

Kant vergleicht den Prozeß des analytischen Denkens mit dem Reduktionsprozeß der Chemiker. Die Analyse ist die Zerlegung einer chemischen Verbindung in Atome. Die Synthese ist der Aufbau einer chemischen Verbindung aus Atomen und Molekülen.

Die Entwurfstechniken der relationalen Datenbanken beruhen auf der analytischen Methode. Der Designer einer relationalen Datenbank trifft Urteile über Entitäten und Beziehungen mit Identität. Codds RDM kennt genau einen typ von Tabellen, nämlich

den, der die Welt in atomaren Sachverhalten abbildet. Die Menge der Prädikate, die eine Entität definieren, ist identisch mit dem Namen der Entität. Man kann die Reihenfolge der Tabellenspalten beliebig vertauschen, ohne daß sich die Entität ändert.

Objektorientierte DBMS befassen sich mit strukturierten Objekten, die durch synthetische Urteile definiert werden. Wenn man ein komplexes Objekt A definiert, dann gibt es Eigenschaften von A, die nicht mit Identität gegeben sind, sondern diese liegen, wie Kant es ausgedriickt hat, außerhalb der Definition von A; sie sind also logische Folgerungen. Die Aristotelische Klausel "A ist ein B" ist also nicht wie bei den relationalen Systemen als eine Definition mit ldentität zu lesen:

"A ist ein B" und "B ist ein A", sondern als Klausel ohne Identität:

"Wenn A existiert, dann folgen notwendigerweiseB1, B2.,Bn."

Der letzte Ausdruck hat die Form einer logischen Folgerung: Aus A folgen notwendigerweise die Bs. Aus mathematischer Sicht ist eine logische Folgerung nichts anderes als eine antisymmetrische Relation. Man nennt einen solchen Ausdruck auch eine allgemeine Klausel.

Wenn zum Beispiel das strukturiertc Obiekt A einen fabrikneuen PKW bezeichnet, der zum Verkauf steht, dann folgt aus der Existenz von A notwendigerweise, daß A einen Motor besitzt, ein Getriebe aufweist, fahrbereit ist, zugelassen werden kann etc.

Es ist eine Binsenwahrheit, daß man für jeden Vorteil zu zahlen hat. Der große Vorteil des RDM liegt in seiner Einfachheit. Jede Weiterentwicklung relationaler Datenbanksysteme sollte die analytische Sicht erhalten, so daß man die elementaren Sachverhalte in einfacher Weise wiederfinden kann. Keineswegs sollte der große Nutzen relationaler DBMS-Produkte verlorengehen, der darin besteht, daß sie Hilfsmittel zur Siherung der Integrität sind.

Doch liegt auch die Crux des RDM in eben dieser Einfachheit: Das relationale Datenmodell beruht auf einer extrem verarmten Relationentheorie. Das hat zur Folge, daß jede relationale Sprache, die das RDM implementiert, nur von geringer Ausdruckskraft ist.

Jede Ganzheit besteht aus Teilen und gewissen Relationen, die die Struktur des Ganzen ausmachen. Der Begriff "Struktur'' war ziemlich vage, bis die Gruppe französischer Mathematiker, die unter dem Pseudonym Nicolas Bourbaki veröffentlicht, eine formale Definition des Begriffs gegeben hat. Bourbaki entwikelte die Grundlagen der Mathematik mit Hilfe des Strukturbegriffes.

Strukturen sind geordnete Mengen von Relationen

Einfach ausgedrückt sind Strukturen nichts anderes als geordnete Mengen von Relationen, die über eine Grundmenge definiert sind. Die wichtigsten Strukturen, die sich in der realen Welt finden und die abgebildet werden sollen, sind Ordnungsstrukturen. Ordnung wird durch antisymmetrische Relationen definiert. Das RDM erlaubt neben der Definition durch Identität keine anderen Strukturdefinitionen.

Erweitert man das Relationenmodell durch weitere Typen von Relationen, so entsteht ein Datenmodell von hoher Ausdruckskraft. In einem erweiterten Relationenmodell ist das Coddsche Modell ein trivialer Sonderfall: Der Designer kann das zu entwickelnde System ausschließlich mit analytischen Urteilen beschreiben.

Auch ein objektorientiertes Datenbanksystem wäre nur ein einfacher Fall des erweiterten Relationenmodells: Der Designer hat die Ganzheiten, deren Teile und die Struktur des Ganzen zu definieren.

Bei den Bemühungen um die Weiterentwicklung des SQL-Standards sieht die Version SQL 3 bereits weitere Tabellentypen vor. Ein Tabellentyp für die Definition von antisymmetrischen Relationen wird zweifellos zu einer neuen Generation von Produkten führen. Das wird einen Quantensprung in der Software-Entwicklung nach sich ziehen.

Die Zukunft der relationalen Systeme liegt jenseits des RDM. Die großen Jahre der relationalen Datenbanksysteme werden anbrechen, wenn die Einschränkungen des RDM fallen. Ein erweitertes Relationenmodell wird die Ausdruckskraft des Designer in der Beschreibung der Welt drastisch erhöhen und völlig neue Anwendungsgebiete erschließen.

Es besteht kein Mangel an Forschungsergebnissen. Mathematik und Logik haben seit langem die Hilfsmittel bereitgestellt, um die Konzepte eines kraftvollen Relationenmodells zu beschreiben. Die Theorie der Relationen wurde vor mehr als 100 Jahren von Charles Sanders Peirce entwickelt. Gerhard Gentzen hat uns bereits vor mehr als 50 Jahren mit seinen allgemeinen Klauseln das algebraische Rüstzeug gegeben, um ein erweitertes Relationenmodell zu entwickeln.

Mit einem erweiterten Relationenmodell, in dem die elementaren Aristotelischen Klauseln mit Identität durch Gentzens Formeln ersetzt werden, können die Benutzer relationaler DBMS ihre Investitionen sichern. Die traditionellen Konzepte des RDM sind in den erweiterten Konzepten als Untermenge enthalten.

Aus der Definition der erweiterten Konzepte könnten verallgemeinerte RDBMS-Produkte erwachsen, die in zahlreichen Modifikationen oder Ausprägungen die Entwicklungsumgebungen der Datenbankbenutzer bereichern würden. Als Folge der Erweiterung darf

man eine stürmische Entwicklung von neuen Entwicklungshilfsmitteln erwarten:

- echte objektorientierte Datenbank-Management-Systeme, die die Vorteile und Benutzerfreundlichkeit der existierenden RDBMS Produkte aufweisen,

- deduktive DB Systeme, die es erlauben, aus großen Daten mengen Schloßfolgerungen zu siehen,

- heuristische Datenbankprodukte, die anzeigen, was aus Beobachtungen, Signalen oder Symptomen folgen könnte,

- abduktive Systeme, die neues Wissen aus der Bildung von Hypothesen schöpfen und sowohl die Verifikation als auch die Falsikation von Hypothesen unterstützen.

Das ultimative Ziel einer Entwicklung von generalisierten DBMS-Produkten sind Knowledge Base Management Systems (KBMS). Was heute unter dieser Bezeichnung auf dem Markt angeboten wird, hat mit einer Erweiterung des Relationenmodells absolut nichts zu tun. Bei den existierenden Systemen handelt es sich durchwegs nur um regelbasierte Entwicklungshilfsmittel für Produktionssysteme.

KBMS Produkte im eigentlichen Sinne erlauben die Definition (Darstellung), Manipulation und das Abfragen

von analytischem wie synthetischem Wissen, also auch von Strukturen, und bieten für die Wissensdarstellungen geeignete Inferenzmethoden an. Die grundlegenden Konzepte der heute existierenden Datenbank-Management-Systeme sind nichts anderes als Sonderfälle des KBMS Konzeptes.

Wenn weder Strukturen definiert noch Inferenzmethoden gefordert werden, dann reduziert sich die Funktionalität eines KBMS auf die eines relationalen DBMS. Hat der Designer Strukturen zu definieren, ohne exogene Inferenzmethoden in den Anwendungen zu fordern, so degeneriert ein KBMS zu einem objektorientierten DBMS. Wenn aber die Wissensdarstellung nur aus Horn-Klauseln besteht, also aus Klauseln mit genau einer atomaren Formel als Konsequent ("right-hand-side"), dann bietet ein KBMS mit Unifikation und Resolution die Funktionalität einer echten Datenbasis, die weit über die des traditionellen Prolog hinausgeht.

Die existierenden RDBMS-Produkte der ersten Generation haben durch ihre Einfachheit und Benutzerfreundlichkeit einen großen Beitrag zur Nutzung von Computern geleistet. Die besten Jahre aber haben die relationalen Systeme noch vor sich. Ihre große Zeit beginnt, wenn die Rechner über Wissen verfügen und aus dem Wissen Schlußfolgerungen ziehen können. Das große heute noch unberührte Potential der relationalen Technologie ist bisher kaum ausgeschöpft worden. Es liegt in der Entwicklung von intelligenten Systemen.