Künstliche Intelligenz: ein weites Feld mit verschwimmenden Grenzen, Teil 3:

Schwierigkeiten zwischen den Zeilen

19.08.1988

Wollen zwei Menschen sich miteinander verständigen, so muß jeweils die Bedeutung dessen, was der eine dem anderen sagen will, auf Wörter und Sätze abgebildet werden ñ und zwar ohne daß Zweideutigkeit möglich ist. Der Gesprächspartner muß diese Wörter oder Sätze dann wieder korrekt auf ihre Bedeutung abbilden, ehe dieses Spiel sich dann in Gegenrichtung wiederholt. Und sollen künftig Computer den Sinn irgendwelcher Wörter und Sätze erfassen, so müssen sie eben Gleiches leisten, wie ein menschlicher Zuhörer oder Leser.

Der Vorgang, wie die wechselseitigen Abbildungsprozesse zwischen Bedeutung und Sprache ablaufen, wird in der Sprachwissenschaft im Rahmen verschiedener Untergebiete beleuchtet. Dabei befassen Phonetik, Phonologie, Morphologie, Syntax, Semantik und Pragmatik sich jeweils nur mit einem Teil der Abbildung - und dies wiederum kommt auch der Arbeit an der maschinellen Sprachverarbeitung bestens zupaß. Denn in den einzelnen Bereichen hat man es ja mit - teilweise sehr deutlich - verschiedenen linguistischen Gesetzmäßigkeiten zu tun, wie der Stuttgarter Sprach- und Rechner-Fachmann Dr. Hans Uszkoreit erinnert.

Strukturmodell und Organisationsdiagramm

Soll ein Computer bei Wörtern wie beispielsweise "Haus", "Häuser", "Hauses", "Nebenhaus", "Hausmann" und so weiter stets erkennen, daß da in irgendeiner Form von Wohngebäuden für Menschen die Rede ist, so muß er natürlich eine ganze Reihe von Gesetzmäßigkeiten aus dem Teilgebiet der Morphologie beherrschen. Denn diese Disziplin lehrt, welche Gesetze die Bildung von Wörtern aus ihren einzelnen Wortteilen bestimmen. Dabei können diese Wortteile wiederum Vor- und Nachsilben, Wortstämme und auch komplette Wörter sein.

Eine Stufe "über" den Gegenständen der Morphologie, also den einzelnen Wörtern, stehen die Objekte, mit denen die Syntax sich zu befassen hat. Dieses Teilgebiet soll Computer informieren, nach welchen Gesetzmäßigkeiten in einer bestimmten Sprache einzelne Wörter zu abgeschlossenen Satzteilen - beziehungsweise jene dann zu fertigen Sätzen - verknüpft werden.

Die syntaktische Analyse eines Satzes ist Voraussetzung der späteren semantischen, also nach seiner Bedeutung fragenden Analyse, wobei sie die späteren, semantischen Interpretationsmöglichkeiten schon auf einer früheren beziehungsweise unteren Stufe so weit wie möglich - aber auch nicht zu weit! - beschneiden soll.

Dazu werden von der syntaktischen Analyse Angaben über die sogenannte "Konstituenten-Struktur" des Satzes, also über seine und seiner Teilabschnitte Bestandteile, erarbeitet. Es entsteht ein Strukturmodell, das wegen der hierarchischen Ordnung der Bestandteile des Satzes ähnlich aufgeschrieben werden kann, wie das Organisationsdiagramm eines Unternehmens (Abbildungen 1 und 2). Doch gibt es einen wesentlichen Unterschied: Im linguistischen Strukturbaum kommt es auch noch auf die "Links-nachrechts-Reihenfolge" der einzelnen Satzelemente an, während im Organigramm ja niemand nach der horizontalen Reihung der Knoten fragt.

Abbildung 1 zeigt im unteren Teil den Syntaxbaum beziehungsweise Strukturbaum eines einfachen Satzes. Dabei bezeichnen die Abkürzungen an den Knoten des Baums die syntaktischen Einheiten des Satzes wie etwa S = Satz, VP = Verbphrase, V = Verb, NP = Nominalphrase und so weiter. Hinter ihnen verbergen sich ausführlichere Beschreibungen der Einheiten.

Direkt über jedem Wort findet man Knotenbezeichnungen, die in etwa den jeweiligen Wortklassen entsprechen. Die Frage, zu welcher Wortklasse ein bestimmtes Wort gehört, entnimmt der Computer einem, zur jeweiligen Grammatik gehörenden Wörterbuch. Außerdem findet er innerhalb der Grammatik auch noch Syntaxregeln, die ihm angeben, welche der einzelnen Konstituenten des Satzes zu einer größeren, umfassenderen Konstituente - wie etwa einem Teil-Satz oder gar zum vollständigen Satz - zusammengefaßt werden dürfen. Wobei eine formelle Regel wie etwa "S -> NP VN" besagen mag, ein Satz könne in einer bestimmten Sprache aus einer Nominalphrase bestehen, der eine Verbphrase folgt.

Wie wichtig für das spätere Verständnis der Bedeutung, auch bloß eines einzelnen Satzes, die syntaktische Analyse ist, zeigt ein simples, deutsch-englisches Beispiel. Während im Englischen nämlich klar aus der Wortstellung hervorgeht, wer in den beiden Sätzen

- A dog bit the boy

und

- A boy bit the dog

der Missetäter ist, sieht es im Deutschen um einiges schwieriger aus:

- Ein Hund biß den Jungen

- Den Jungen biß ein Hund

Hier nämlich geht nicht mehr allein aus der Wortstellung hervor, welche der beiden Nominalphrasen das Subjekt ist, sondern wir müssen uns noch den Kasus (wer - wen?) anschauen.

Ein schönes Beispiel für Mehrdeutigkeit im Deutschen ist auch der Satz

- Der Mann suchte den Sohn des Nachbarn mit dem Auto

denn wie soll man da eigentlich wissen, zum wem das Auto logisch gehört: zum suchenden Mann, zum Sohn oder halt zum Nachbarn? - Und noch um einiges schwieriger werden Analysen derartiger Sätze, finden sich in ihnen Satzergänzungen ohne klärenden Bezug auf die zentrale Aussage.

Freie Wortstellung verwirrt den Computer

Im Falle des Satzes mit dem Auto kann man nicht weniger als drei verschiedene Strukturbäume aufstellen und muß mithin aus weiteren Sätzen des Textes schließen, welcher davon der richtige - und mithin in den Sinnzusammenhang passende - ist.

Verwirrung für Mensch wie Computer gleicherweise können aber auch Sätze schaffen, bei denen Phrasen, die syntaktisch und sinngemäß eine Einheit bilden, durch eingeschobene, weitere Satzteile voneinander getrennt werden:

- Besonders dem Jungen prophezeite jeder Wahrsager ein glückliches Leben, der an einem Sonntag geboren war.

Wer ist da das Sonntagskind?

Andererseits kehrt im Deutschen manchmal unverhofft Einfachheit ein, stößt man etwa auf einen Satz wie den folgenden:

- Darum hatte gestern dem Jungen der Mann den Fremden gezeigt.

Hier lassen sich aus den vier, einzeln unterstrichenen Satzelementen insgesamt 24 Reihenfolge-Permutationen bilden, ohne daß unzulässige Sätze entstünden. Wobei interessant ist, daß es nicht nur in Deutschland, sondern beispielsweise auch in Australien Eingeborenensprachen gibt, die derart freie Wortstellungen - und sogar noch freiere - zulassen.

Die vielfach mühevolle und manchmal nicht eindeutig lösbare Aufgabe, bestimmten Sätzen konkrete syntaktische Strukturen zuzusprechen, wird von Programmen mit der Bezeichnung "Parser" bewältigt. In diese Parser können die zugehörigen, für ihre Arbeit unverzichtbaren Grammatiken wahlweise direkt integriert sein, oder aber man findet jene als getrennt entwickelte und verwaltete Datenstrukturen vor. Uszkoreit: "Der Parser ist oft das Kernstück der linguistischen Analysekomponente sprachverstehender Programme."

Mehrdeutiges wird eindeutig

Geht man von der Syntax eine Stufe weiter nach oben, so findet man mit der Semantik ein Teilgebiet vor, das der Bedeutung von Wörtern, Satzteilen und Sätzen nachzuspüren sucht. Dabei ist aber interessanterweise nicht etwa das schrittweise Analysieren komplizierter Sätze das eigentliche Hauptproblem der Semantik; Im Zentrum der Bemühungen steht vielmehr die Suche nach einer geeigneten Repräsentationssprache, in der man die gefundenen Bedeutungen computergerecht niederschreiben kann.

Will man die immense Bedeutung dieser Repräsentationssprache voll verstehen, so muß man sich zunächst vor Augen führen, daß Tautologien unerwünscht sind: Die Bedeutung eines Satzes soll ja gerade nicht einfach wieder mit jenen Worten beschrieben werden, die sich im Satz finden. Zumal diese Worte ja vielfach auch noch mehrdeutig sind, wie etwa das Wort "Ball".

Der situative Kontext spielt eine wichtige Rolle

Hat die Analyse eines Satzes aber beispielsweise ergeben, daß im konkreten Zusammenhang nicht etwa vom kugelförmigen Gummiding, sondern von einem Tanzabend die Rede ist, so wünscht man sich natürlich, die semantische Repräsentationssprache möge eben diese Erkenntnis unverlierbar festhalten. Sie muß also eindeutig sein, wie es auch die Sprachen der formellen Logik sind; und gleich jenen soll sie sich dann auch noch zum logischen Schlußfolgern benutzen lassen.

Natürlich ist neben der syntaktischen auch bei der semantischen Analyse von Sätzen besonderes Augenmerk auf jene Fälle zu richten, in denen die Aussage des Satzes von vornherein mehrdeutig ist; in denen also von Anfang an bewußt doppeldeutig formuliert wurde. Und noch viel schwieriger wird die Sache natürlich in Fällen, in denen die eigentliche Bedeutung etwa eines Briefs überhaupt nur noch zwischen den Zeilen zu finden ist.

Heute, so Uszkoreit, sind Computerlinguisten im allgemeinen bestrebt, die Bedeutung jedes einzelnen Satzes für sich aus jeweils der Bedeutung seiner einzelnen Bestandteile abzuleiten, ihn also "kompositionell zu analysieren". Dabei arbeitet man, wegen der starken Abhängigkeit der semantischen Analyse von der syntaktischen Struktur eines Satzes, in der neuesten Forschung bereits mit Programmen, die die syntaktische Analyse eng integriert mit der semantischen vornehmen. Was im Falle des IBM-Projekts Lilog (siehe CW Nr. 32, Seite 36) nun gar zu einem System geführt hat, das beide Arten von Operationen mit den gleichen Programmteilen ausführt.

Wie schon weiter oben angedeutet, kann man die "wahre" Bedeutung sprachlicher Ausdrücke nicht immer allein aus der Kombination lexikalisch erschließbarer Wortbedeutungen ablesen; denn meistens spielen auch die vorangegangenen Äußerungen - beziehungsweise der "sprachliche Kontext" sowie die Kommunikationssituation - also der "situative Kontext" - eine wichtige Rolle.

Wie Faktoren aus diesen beiden Bereichen den Prozeß der Ermittlung der wahren Bedeutung eines Satzes oder eines Texts beeinflussen ñ dies untersucht man im Rahmen des Teilgebietes "Pragmatik". Wobei hier an erster Stelle das Problem auftritt, wie man feststellen kann, auf welche anderen Worte bestimmte, für sich allein bloß nichtssagende Ausdrücke sich wohl beziehen mögen?

So liegt zum Beispiel auf der Hand, daß man mit Wörtern wie "er", "so", "dort", "heute" und dergleichen nichts Sinnvolles anfangen kann, weiß man nicht schon, auf welche konkreten Zeiten, Dinge, Orte oder Eigenschaften sie sich beziehen. Das zeigt exemplarisch der Satz

- Heute hätte sie das genauso auch hier tun können, über dessen vorerst bloß dunklen Sinn man ohne Kenntnis des Kontexts höchstens spekulieren kann.

Aber wer weiß: Vielleicht dienen Sätze dieser Art eines Tages gar noch dem Zweck, Computern das Entwickeln von Vorstellungskraft und Phantasie zu erleichtern.