Klassische Logiken erweisen sich als Nadelöhr:Inferenzmechanismen sind meist nicht mächtig genug

02.10.1987

Expertensysteme sind zur Zeit eines der großen Schlagworte in der DV-Branche. Das könnte sich jedoch ändern, wenn es nicht gelingt, ihre Inferenzmechanismen flexibler und leistungsstärker zu machen. Die gängigen Implementierungen auf der Basis klassischer Logiken sind meist nicht in der Lage, komplexe Schlußweisen, wie sie menschliche Experten vollziehen, nachzubilden. Es ist daher erforderlich, in stärkerem Maße als bisher Expertensysteme mit Inferenzmaschinen auszustatten, die auf leistungsstarken nicht-klassischen Logiken beruhen.

Für fast alle zur Zeit erhältlichen Expertensysteme und Expertensystem-Shells ist es typisch, daß sie als Inferenzmechanismen nichts anderes kennen, als vorwarts-verkettende (forward-Chaining) oder rückwärts-verkettende (backward-chaining) logische Schlußweisen. Zusätzlich werden gelegentlich noch Meta-Regeln und Wahrscheinlichkeitsfaktoren als Mechanismen zur Verfügung gestellt um die klassischen Inferenzmechanismen zu unterstützen - etwa um Regeln dynamisch während der Ableitung einer Aussage umzuordnen - oder um die Gültigkeit von logischen Schlüssen von Parametern (zum Beispiel den Wahrscheinlichkeitsfaktoren) abhängig machen zu können.

Klassische Prädikatenlogik dient als Ausgangsbasis

Ansonsten beruhen die Inferenzmechanismen jedoch meist nur auf einer eingeschränkten klassischen Aussagen- oder Prädikatenlogik, meist erster Stufe. Selbst die Programmiersprache Prolog, die sich für das Erstellen von Expertensystemen wegen der Möglichkeit des deklarativen Programmierens besonders gut eignet, beruht auf der klassischen Prädikatenlogik und einem klassichen Inferenzmechanismus (Resolutionsprinzip mit Unifikation).

Die klassische Prädikatenlogik ist als Sprache und Formalismus sehr ausdrucksstark. Das erkennt man zum Beispiel daran, daß sich die gesamte Mathematik bereits in der Prädikatenlogik erster Stufe mit nur einem einzigen Relationssymbol (der Element-Relation "e" der Mengenlehre) formalisieren läßt. Aber dennoch hat die klassische Logik Mängel, insbesondere dann, wenn es um Anwendungen im Bereich der "Künstlichen Intelligenz" und der Expertensysteme geht.

Ein Mangel der klassischen Logik besteht darin, daß sie einen statischen Wahrheitsbegriff voraussetzt, der in den folgenden drei Prinzipien zum Ausdruck kommt:

- Eine Behauptung ist wahr oder falsch, ein Drittes gibt es nicht;

- eine wahre Behauptung kann nicht falsch sein, und eine falsche nicht wahr;

- eine Behauptung ist, wenn sie wahr ist, immer wahr, und wenn sie falsch ist, immer falsch.

Obwohl diese Prinzipien dem naiven Betrachter zunächst als einleuchtend erscheinen werden, ist jedes einzelne von ihnen kritisiert worden und unter anderem Anlaß für die Entwicklung einer neuen nicht-klassischen Logik geworden. So hat die Ablehnung des ersten Prinzips bereits in den zwanziger Jahren dieses Jahrhunderts zur Entwicklung mehrwertiger Logiken geführt, die Ablehnung des ersten und dritten Prinzips zur Intuitionistischen Logik, die Ablehnung des zweiten Prinzips zur Erweiterung Parakonsistenter Logiken und die Ablehung des dritten Prinzips zur Entwicklung sogenannter Nicht-monotoner Logiken.

Der zweite wichtige Mangel der klassischen Logik ist, daß sie, obwohl sehr ausdrucksstark, nachweislich bestimmte Sachverhalte nicht zu formulieren oder auszudrücken vermag Beispiele dafür sind: "Es ist möglich, daß...",also sogenannte Modalsätze, und Sätze, die intensionalen Charakter haben wie: "Die Person glaubt, daß... " oder "Der Roboter verfolgt bei der Lösung eines Problems die Hypothese, daß...".

Dieser Mangel an Ausdrucksstärke der klassischen Logik hat zur Entwicklung der Modal-Logiken geführt, von denen es mittlerweile bereits Dutzende gibt. Sie alle sind unterschiedlich ausdrucksstark. Die Situation ist hier ähnlich wie nach der Entdeckung der nicht-euklidischen Geometrien: Man benutzt für bestimmte Aufgaben und Probleme die Logik, die am angemessensten ist, wie man in der Physik heute die Geometrie wählt, die die beobachteten physikalischen Phänomene am besten oder einfachsten zu beschreiben gestattet. Sowenig wie es heute nur eine ausgezeichnete alleinige Geometrie gibt, sowenig gibt es heute eine und nur eine Logik. Das Wort "Logik" kann mit Recht im Plural verwendet werden.

Es steht dafür, die Gründe für die Einführung nicht-klassischer Logiken noch etwas genauer zu betrachten. Als erstes Prinzip wurde bereits zuvor das sogenannte "Tertium-Non-Datur" formuliert; es besagt daß jede Aussage nur wahr oder falsch sein könne, etwas anderes, drittes, gebe es nicht. Dieses Prinzip ist von einigen Logikern und Mathematikern bereits sehr früh fallen gelassen worden. Insbesondere hat man dadurch versucht, die um die Jahrhundertwende aufgetretenen Antinomien und Paradoxien in der Mathematik (zum Beispiel die Russelsche Antinomie der Menge aller Mengen, die sich nicht selbst als Element enthalten) aus der Welt zu schiffen, indem man Logiken mit mehr als zwei Wahrheitswerten konstruierte; oder indem man, wie die Intuitionisten um den holländischen Mathematiker L.E.J. Brouwer, die Behauptung fallen ließ, daß eine Aussage zu jedem Zeitpunkt einen der Wahrheitswerte "wahr" oder "falsch" annehmen müsse. Brouwer legte der Mathematik nicht den Wahrheitsbegriff als Prüfstein für mathematische Sätze zugrunde, sondern den Beweisbarkeitsbegriff. Dieser Ansatz Brouwers führte zu der oben erwähnten intuitionistischen Logik und sogar zu einer intuitionistischen Mathematik, die mit der klassischen Mathematik unverträglich ist.

Im Bereich der Expertensysteme wird das Tertium-Non-Datur dort "lästig", wo es um Wissen geht, von dem man nicht ohne weiteres sagen kann (oder will), ob es wahr oder falsch ist. Beispiele:

a) Peter ist groß.

b) Das Universum ist unendlich.

c) Der Kurs der Aktie XY wird vermutlich nächste Woche steigen.

d) Der Patient A leidet an den Symptomen X und Y und hat deshalb wahrscheinlich die Krankheit Z.

Wann sind solche Aussagen wahr und wann sind sie falsch? Im Beispiel a) ist ein Problem, daß man nicht genau sagen kann, wann jemand groß ist. Ist man mit 1,90 Metern, mit 1,95 oder mit 2,10 Metern groß? In Beispiel b) lassen sich zwar theoretische Gründe angeben, die für oder gegen die Behauptung sprechen, aber definitiv sicher kann man dadurch nicht sein; man denke nur an die Gegensätze zwischen Newtons und Einsteins Physik. b) ist also nur relativ zu einer Theorie wahr. Die Beispiele c) und d) sind sich darin ähnlich, daß beide Vermutungen enthalten. Wann aber sind Vermutungen wahr? Zur Überprüfung der Wahrheit von c) genügt es, bis zur nächsten Woche zu warten. Bei d) hingegen empfiehlt sich ein solches Vorgehen nur in den seltensten Fällen.

Es ist nicht schwer, weitere Beispiele zu finden. Das "Schlimme" ist, daß die obigen Beispiele nicht konstruiert sind. Ein großer Teil der menschlichen Kenntnisse besteht aus Wissen, das sich nur in Formulierungen ausdrücken läßt, von denen im allgemeinen nicht mit Sicherheit angegeben werden kann, ob sie wahr oder falsch sind.

Eine scharfe Definition ist oft kaum möglich

Als Exempel kann erneut das Beispiel a) dienen. Das Problem bestand hier darin, daß der Begriff der Größe nicht scharf definiert ist. Andere solche Begriffe sind zum Beispiel: Wissen, Intelligenz, Reichtum, Güte, Nähe, Zukunft, Objekt, Gestalt, Wert, Körper, Raum, Zeit. Selbst die Begriffe "Wahrheit" und "Falschheit" können, wie oben angedeutet, als unscharf aufgefaßt werden. Versucht man, für einen beliebigen Begriff eine scharfe Definition anzugeben, so läßt sich feststellen, daß es viel mehr Begriffe gibt, deren Umfang nicht klar definiert ist, als Begriffe, bei denen dies der Fall ist. Aus diesem Grund beschäftigt sich die Logik-Forschung seit einiger Zeit mit der Entwicklung einer Logik unscharfer Begriffe, der "Fuzzy-Logic", wie der Terminus technicus speziell für den Einsatz in Expertensystemen lautet. "Fuzzy" kommt aus dem Englischen und heißt soviel wie "verschwommen", daher der Name. Die Semantik der Fuzzy-Logic beruht auf einer "Fuzzy-Mengenlehre", einer Mengenlehre, die eine Verallgemeinerung der klassischen Mengenlehre darstellt.

In der klassischen Mengenlehre werden Eigenschaften einer Menge von Objekten mit dieser Menge selbst identifiziert. Eine Eigenschaft (Prädikat) kann danach als eine Funktion aufgefaßt werden, die Objekte auf eine zweielementige Menge abbildet. Die Objekte, die die betreffende Eigenschaft haben, die das Prädikat erfüllen, bekommen den Wert 1 zugeordnet, die anderen den Wert 0. Folglich gibt es eine eindeutige Zuordnung zwischen Teilmengen einer Menge und den auf der Menge definierbaren Eigenschaften.

In der Fuzzy-Mengenlehre wird dieser Ansatz dahingehend erweitert, daß die Prädikatfunktionen nicht mehr eine zweielementige Menge als Bildbereich haben müssen. Der Bildbereich kann eventuell sogar unendlich groß sein, also zum Beispiel das gesamte Einheitsintervall der reellen Zahlen inklusive 0 und 1 umfassen.

Nach diesem Ansatz sind die scharfen Prädikate gerade die, deren charakteristische Funktionen nur die Werte 0 und 1 annehmen. Alle anderen Prädikate können als unscharf interpretiert werden, da ihre charakteristische Funktion auch Werte annehmen kann, die echt zwischen 0 und 1 liegen. Je näher der Wert eines Objektes unter einer Prädikatfunktion an der 1 liegt, desto eher kann man davon sprechen, daß das Objekt die betreffende Eigenschaft hat.

Fuzzy-Ansatz unterstützt plausible Folgerungen

Es ist nun relativ einfach, auf einer solchen Mengenlehre eine Semantik für eine Fuzzy-Logic aufzubauen. Mit der daraus resultierenden Logik lassen sich Schlüsse ziehen, die klassisch nicht möglich, jedoch intuitiv völlig korrekt sind. Beispiel:

- Der Kurs der Aktie X wird stark steigen.

- Der Kursverlauf der Aktie Y verlauft ähnlich, wie der der Aktie X.

- Also: Der Kurs der Aktie Y wird steigen.

Man sieht bereits an diesem einfachen Beispiel, wie sinnvoll eine Fuzzy-Logic sein kann. Damit läßt sich Geld verdienen, und das ist immer ein gutes Argument. Mit einem klassischen Inferenzmechanismus wäre die obige plausible Folgerung nicht möglich.

Nun zum zweiten Prinzip, das der klassischen Logik zugrunde liegt: Eine Aussage, die wahr ist, kann nicht falsch sein, und eine falsche nicht wahr. Dieses Axiom der klassischen Logik scheint äußerst plausibel zu sein. Aber auch dieser Grundsatz wurde bereits vor weit über hundert Jahren bezweifelt, und zwar durch Hegel und die dialektische Philosophie.

Inkonsistente Aussagen müssen verarbeitbar sein

Seit Mitte der siebziger Jahre versucht man vorwiegend in Lateinamerika recht erfolgreich, die dialektische Logik zu formalisieren. Die formalen Theorien, die aus diesen Bemühungen entstanden, nennt man "Parakonsistente Logiken".

In der Expertensystemtechnologie sind nun solche Parakonsistenten Logiken insbesondere dort von großer Wichtigkeit, wo Expertensysteme inkonsistente Aussagenmengen verarbeiten müssen. Auch hier zwei Beispiele:

- Angenommen, ein Flugzeug hat zwei verschiedene Typen von Sensoren, einen Infrarot-Sensor und einen optischen Sensor. In diesem Fall kann es vorkommen, daß der Infrarot-Sensor beim Anflug auf ein Ziel andere Objekte meldet als der optische Sensor; etwa dann, wenn ein Wärmestrahlen abgebendes Objekt von einem größeren kalten Objekt verdeckt wird. Bei der Fusion der Sensordaten tritt nun das Problem auf, daß die beiden Sensoren inkonsistente Folgeoperationen auslösen könnten. Ein Expertensystem, das die Datenfusion der Sensoren überwacht, müßte versuchen, die aufgetretenen Konflikte zu lösen. Dies ist am ehesten dann möglich, wenn das Expertensystem zumindest zeitweilig davon ausgeht, daß beide Sensoren wahre Aussagen liefern, um die Ursachen für die Diskrepanz der Sensormeldungen genauer analysieren zu können. Eine Parakonsistente Logik wäre hier sehr angebracht.

- Ein wichtiges Gebiet der "Künstlichen Intelligenz" umfaßt das Verstehen von Sätzen einer natürlichen Sprache. Bei dialogorientierten Expertensystemen wird ebenfalls meist großer Wert darauf gelegt, dem Benutzer die Eingaben in einer Form zu gestatten, die seiner natürlichen Sprache möglichst nahe kommt. Menschen neigen jedoch dazu, "unlogisch" zu sein; das heißt, gerade bei langwierigen und komplizierten Dialogen kommt es vor, daß unverträgliche, falsche oder unlogische Eingaben gemacht werden. Ein gutes Expertensystem sollte in der Lage sein, solche Inkonsistenzen abzufangen, zu entdecken und aufzulösen (beispielsweise durch Nachfragen). Und dies wiederum ist am besten mit einer effektiven Parakonsistenten Logik möglich.

Man kann den Einsatz Parakonsistenter Logiken bei der Bearbeitung natürlicher Sprachen auch abstrakttheoretisch rechtfertigen. Alfred Tarski, ein berühmter polnischer Logiker, hat in einigen Arbeiten über die Definierbarkeit des Wahrheitsbegriffes in formalen Sprachen gezeigt, daß jede Sprache, die so ausdrucksstark ist wie eine natürliche Sprache, nicht widerspruchsfrei normalisiert werden kann. Es ist umso leichter Widersprüche in einer Sprache herzuleiten, je ausdrucksstärker sie ist. Folglich wird man sich darauf einrichten müssen, Parakonsistente Logiken zumindest dort zugrunde zu legen, wo man ernsthaft versucht, große Fragmente einer natürlichen Sprache automatisch zu verarbeiten und zu verstehen.

Die klassische Logik kann im Gegensatz zu einer Parakonsistenten Logik Widersprüche nicht verkraften. Ein Widerspruch in einem klassichen logischen Kalkül würde ein "logisches Chaos" nach sich ziehen, denn es läßt sich leicht zeigen, daß nach dem Auftreten eines Widerspruchs in einer klassichen Logik jeder Satz als wahr bewiesen werden kann, also auch falsche Sätze. In diesem Fall wäre jede Aussage eines Expertensystems zweifelhaft und das System dadurch nutzlos.

Die Ablehnung des dritten erwähnten klassichen Axioms war neben der bereits erwähnten prinzipiellen Ausdruchsschwäche der klassischen Logik ein weiterer Grund für die Entwicklung von Modal-Logiken, insbesondere der Temporal-Logiken, also von Logiken, die dem Zeitbegriff Rechnung tragen. In solchen Logiken sind Aussagen nicht absolut wahr oder falsch, sondern nur relativ zu einem Zeitpunkt oder Zeitintervall. Dadurch erhält man die Möglichkeit, Sätze zu formulieren und herzuleiten, deren Wahrheitswert von einem zeitlichen Kontext bestimmt wird. Beispiele:

- "Früher konnte man sich auf einen Anstieg des Kurses von VW-Aktien verlassen, heute muß man vorsichtiger sein."

- "Wenn sich der Prozessor jetzt in einem Wartezustand befindet, so wird während des nächsten Taktes der I/O-Port nocht nicht freigegeben".

Es erübrigt sich wohl, darauf hinzuweisen, welch interessante Anwendungsmöglichkeiten von Expertensystemen sich aus solchen Ausdrucksformen ergeben können.

In den letzten Jahren hat das dritte Axiom der klassischen Logik aber auch noch die Entwicklung von anderen nicht-klassischen Logiken provoziert, nämlich die Entwicklung der Nicht-monotonen Logiken. Die Motivation für die Einführung Nicht-monotoner Logiken kommt hauptsächlich aus der Robotertechnologie. Die Steuerung eines autonomen, "intelligenten", ortsungebundenen Roboters ist äußerst schwierig. Dabei ist eines der Hauptprobleme das Planen der Aktionen eines Roboters.

Wenn sich ein Roboter "vornimmt, etwas zu tun", so kann dies gut gehen - oder auch nicht. Wenn es gut geht, so führt der Roboter die Aktion aus und plant die nächste. Was aber, wenn bei der Planung etwas nicht berücksichtigt werden konnte? Was, wenn zum Beispiel ein nicht vorhersehbarer technischer Defekt auftritt? In solchen Fällen muß der Roboter umplanen. Er muß einen neuen Weg zur Erreichnung seines Zieles suchen oder, wenn dies nicht möglich ist, eventuell sogar seinen ursprünglichen Plan aufgeben.

Von der Logik her betrachtet hat man es bei einer Robotersteuerung mit Aussagen und Schlüssen zu tun, die auf mehr oder weniger gesicherten Annahmen beruhen. Und das muß der Roboter sogar tun, denn er kann nicht alle möglichen Vorkommnisse bei seinen Planungen bedenken.

Einsatz in der Robotik steckt in den Anfängen

Ist beispielsweise geplant, in den Urlaub zu fahren, so setzt man voraus, daß das Hotel, indem ein Zimmer gebucht wurde, tatsächlich vorhanden ist, daß die Autobahn nicht plötzlich irgendwo aufhört, daß das Auto in der Garage steht und fahrbereit ist und vieles andere mehr. Solche Annahmen sind den Menschen so geläufig, daß sie sich ihrer in den meisten Fällen kaum noch bewußt sind. Und dennoch: Sie alle könnten sich als falsch erweisen.

Die Nicht-monotonen Logiken formalisieren logische Schlüsse, die unbewiesene Annahmen verwenden. Das Problem dabei ist, das Schlüsse, die unter Zuhilfenahme von unbeweisenen Annahmen gezogen wurden, wiederum als Prämissen für weiter Schlüsse dienen können. Stellt sich nun aber aufgrund neuer, zusätzlicher Informationen heraus, daß eine der verwendeten Annahmen falsch war, so müssen alle Folgerungen zurückgenommen werden, die diese Annahme direkt oder indirekt benutzt haben. Das von einem Roboter verwaltete Wissen wächst demnach eventuell nicht, wenn neues Wissen (Informationen) hinzukommt. Es kann sogar sein, daß ein Zuwachs von Informationen einen großen Teil des angenommenen Wissens ungültig macht. Das Wissen eines solchen Systems wächst also nicht monoton mit den Informationen, über die es verfügt (daher die Bezeichnung "Nicht-monotone Logik"). In der klassischen Logik ist dies nicht möglich. Was in der klassischen Logik einmal als wahr eingeführt wurde, bleibt wahr.

Expertensysteme werden bislang kaum zur Steuerung von Robotern eingesetzt. Dazu ist das Laufzeitverhalten meist zu schlecht. Aber das wird sich ändern. Zudem gibt es noch viele andere Bereiche, in denen bereits heute Expertensysteme eingesetzt werden, die mit einer Nicht-monotonen Logik viel besser handhabbar wären als bisher möglich. Zu nennen sind beispielsweise:

- Planungsaufgaben (im Management, Planung und Auswertung von Experimenten, Einsatz von Ressourcen);

- Kontroll- und Überwachungsaufgaben (Produktionsüberwachung, CIM);

- Prognose- und Diagonseaufgaben - (Markttendenzen, Bankgeschäfte, Medizin).

Spätestens jetzt sollte klar sein, wie wichtig leistungsstarke, bessere Inferenzmethoden für Expertensysteme in den unterschiedlichsten Anwendungsgebieten sind. Es bleibt noch zu erwähnen, welche Schritte eingeleitet werden sollten, damit in Zukunft solche verbesserten Inferenzmechanismen entwickelt werden und den potentiellen Anwendern zur Verfügung stehen.

Die wichtigste Forderung ist, daß die bereits bekannten theoretischen Mechanismen in operationelle Programme umgesetzt werden. Es mangelt keineswegs an theoretischen Ergebnissen im Bereich der nicht-klassichen Logiken. Aber oft fehlen effektive Umsetzungen der Forschungsergebnisse in leistungsstarke Programme.

Die zweite Forderung muß lauten daß die Logik-Grundlagenforschung sich stärker als bisher an den Erfordernissen der Künstlichen Intelligenz und der Expertensysteme orientiert. Viele Logiker haben noch nicht bemerkt, daß heute die Anforderungen an ihre Wissenschaft meist aus der Informatik kommen, und nicht mehr, wie noch vor 50 Jahren, aus der Mathematik.

Die dritte und letzte Forderung richtet sich an alle, die Expertensysteme anwenden wollen oder müssen. Sie sollten den Herstellern der Expertensystem-Entwicklungsumgebungen (Shells) und den Anbietern von Expertensystemen ihre tatsächlichen Anforderungen klarmachen. Wenn man sich mit Expertensystemen auf Hardware-Diagnose oder banale Konsultationssysteme beschränken muß, weil die Inferenzmechanismen kaum komplexere Anwendungen gestatten, so sind viele Expertensysteme (oder Shells) ihr Geld nicht wert.

Die Dinosaurier sind ausgestorben, weil sie sich den veränderten Umweltbedingungen nicht anpassen konnten. Expertensysteme können zwar nicht aussterben, aber das Interesse an ihnen kann zum Erliegen kommen, wenn ihre Leistungsfähigkeit nicht verbessert wird. Ein erster Schritt wären die Schlußfolgerungskomponenten der Expertensysteme um nicht-klassische Inferenzmechanismen zu erweitern.