Künstliche Intelligenz: ein weites Feld mit verschwimmenden Grenzen (Teil 2)Natürliche Sprachen - für Rechner höchst unnatürlich

05.08.1988

Vom Rechen-Knecht zur intelligenten Maschine

Künstliche Intelligenz, Expertensysteme, Lernende Maschinen, Neuronale Netze, Konnektionismus - das sind nur einige der Stichworte, unter denen eines der interessantesten Gebiete der aktuellen Computer- Technik behandelt wird: jenes nämlich, das die Weiterentwicklung der früheren Rechen-Knechte zu scheinbar - intelligenten Maschinen behandelt.

Mit dem aktuellen Stand und den weiteren Tendenzen befaßt sich die COMPUTERWOCHE im Zuge einer losen Folge von Beiträgen (der erste erschien in Nr. 29 auf Seite 26). Sie sollen eine plastische Vorstellung von einigen der vielen Probleme geben, mit denen der laufend größer werdende Kreis der KI-Experten tagtäglich zu kämpfen hat.

Zu den vielleicht interessantesten Teilgebieten der Künstlichen Intelligenz (KI) gehören heute die sogenannten natürlichsprachlichen Systeme: Maschinen, die innerhalb gewisser Grenzen wirklich verstehen müssen, was ein Text, den man ihnen vorgesetzt hat, bedeutet.

Natürliche Sprachen dienen in erster Linie dazu, erklärt der Stuttgarter Linguist und Computerwissenschaftler Dr. Hans Uszkoreit, Informationen durch Wörter und Sätze zu übermitteln, die den Adressaten dann in Form einer gesprochenen Rede oder eines geschriebenen Textes erreichen. Der Empfänger aber kann aus den Wörtern und Sätzen nur dann wieder deren Bedeutung extrahieren - sie also "verstehen" - , wenn diese Wörter und Sätze erstens den Regeln der jeweiligen natürlichen Sprache auch wirklich entsprechen, wenn der Adressat zweitens die gleiche Sprache beherrscht wie der Absender und wenn der Adressat drittens auch "über das vom Sprecher vorausgesetzte Hintergrundwissen verfügt". Wobei die Bedeutung gerade des letzten Punktes speziell dann besonders in Erscheinung tritt, wenn man sich einen Wortwechsel vorstellt, bei dem es nicht etwa auf den vordergründigen Inhalt der Sätze, sondern auf einen mehr oder weniger gut kaschierten Doppelsinn ankommt: "Über Bonn zieht ein Tief auf . . . "

Im Bereich der maschinellen Sprachverarbeitung, die sich laut Uszkoreit mit der Sprachverwendung des Menschen befaßt, hat man es einmal mit "Sprachgenerierung"

- nämlich mit der Abbildung von Bedeutung auf Wörter und Sätze - und zum anderen mit "Sprachanalyse" - also dem gegensinnig verlaufenden Vorgang - zu tun. An dieser Stelle sei kurz notiert, daß natürliche Sprachen sich grundlegend von Kunstsprachen wie Esperanto, von Programmiersprachen wie Fortran, vom Schwänzeltanz der Bienen und auch von der Formelsprache der Aussagenlogik unterscheiden; denn allein sie sind "historisch entstandene und gewachsene, menschliche Sprachen": egal, ob es der Dialekt der Zulus oder der Deutschen ist.

Das Modellierte und die Modelle

Befaßt man sich mit aktuellen Entwicklungen im Bereich der maschinellen Sprachverarbeitung, so kann man deutlich zwei grundlegende Richtungen unterscheiden. Denn während einen Teil der Forscher vor allem das durch die Maschinen Modellierte interessiert, sie also nach den kognitiven Fähigkeiten des Menschen fragen, stehen für andere mehr die Modelle selber im Vordergrund; also jene Maschinen und Programme, die Sprache erzeugen oder gar "verstehen" können.

Was die Entwicklung natürlichsprachlicher Systeme den Forschern so schwer macht, ist (unter anderem) die Tatsache, daß selbst die reine, theoretische Linguistik immer noch keine umfassende, formelle Grammatik für eine natürliche Sprache zustande gebracht hat; allenfalls Grammatik-Fragmente konnten bisher erstellt werden. Wobei unter Grammatiken hier formelle Definitionen einer Sprache zu verstehen seien, bemerkt Uszkoreit, die "jedem wohlgeformten Satz - aber auch nur jedem wohlgeformten - eine Strukturbeschreibung" und außerdem auch noch eine Beschreibung seiner Bedeutung - also eine "semantische Repräsentation" - zuordnen.

Die erwähnten Grammatik-Fragmente sollen der Beschreibung von Sprach-Fragmenten dienen, wobei sie selber aber - aus Gründen der Einfachheit und vor allem auch der Eindeutigkeit - nicht in natürlicher Sprache, sondern in Gestalt bestimmter, knapper Formel-Systeme verfertigt werden. Dabei muß nun durch Tests immer wieder geprüft werden, ob ein bestimmtes Grammatik-Fragment erstens das entsprechende Sprach-Fragment korrekt und vollständig beschreibt, und zweitens, ob das hierbei benutzte Formel-System denn eigentlich auch brauchbar ist.

Dieses Testen wiederum kann längst nicht mehr allein mit Hilfe von Papier und Bleistift erfolgen, bemerkt Uszkoreit; denn die Grammatik-Fragmente wurden dazu schon längst viel zu komplex. Und deshalb müssen Linguisten nolens volens mit Computern arbeiten, wollen sie immer bessere und umfassendere Grammatik-Fragmente entwickeln. Wobei zur Abbildung linguistischer Theorien und Analysen auf die Maschine hier nun wieder Computermodelle benutzt werden, die KI- Forschern fast schon wie ein Geschenk des Himmels vorkommen dürften: denn mit eben diesen Modellen wiederum können sie auch bei der Einrichtung natürlichsprachlicher Systeme vorankommen, wie Uszkoreit den Kreis schloß.

Annäherung zwischen Linguisten und Kl-Leuten

Heute kann man sehen, daß der - früher riesige - Unterschied zwischen Experten für maschinelle Sprachverarbeitung einerseits und Linguisten andererseits kleiner und kleiner wird. Doch immer noch unterscheiden die beiden Gruppen sich, was die Herkunft ihrer spezifischen Methoden sowie ferner den Zusammenhang betrifft, in den sie die Resultate ihres Tuns stellen. Denn während der (Computer- )Linguist mehr auf der Basis linguistischer Theorien arbeitet, stützt der Kl-Fachmann sich mehr auf die gute alte Informatik. Und außerdem interessiert ihn auch mehr als den puristischen Linguisten die Frage: Wie kann man ein natürlichsprachliches System am besten in größere, umfassende Datensysteme einbetten? Denn wem hilft schon ein isoliertes System?

Will man sich unter den heutigen, teils erst geplanten und teils schon realisierten natürlichsprachlichen Systemen zurechtfinden, so bietet sich zunächst eine Dreiteilung in Systeme zur

- Sprachgenerierung,

- Sprachanalyse und

- Analyse plus Generierung an. Dabei läßt sich dann außerdem noch nach der jeweiligen Form unterscheiden, in der Sprache ein- beziehungsweise ausgegeben wird; also etwa schriftlich oder stimmlich.

Für Systeme, die Sprache sowohl analysieren als auch generieren, ist weiterhin die Unterscheidung zweckmäßig, ob man es hier mit einfachen Ein-Ausgabe-Systemen, mit Frage-Antwort-Systemen oder mit Dialog-Systemen zu tun hat.

Bis heute, so Uszkoreit, kennt man bloß Systeme, die allenfalls "einen Teil der Abbildung zwischen Spracheingabe und Bedeutung" modellieren. Hingegen gebe es noch immer kein einziges sprachverstehendes System in dem Sinne, daß es "aus sprachlichen Ausdrücken wirklich deren Bedeutung extrahieren" könne. Man kenne bisher eben nur "bescheidene Annäherungen an dieses Ziel" - doch immerhin: Auch Zwischenergebnisse der einschlägigen Forschung lassen sich "für bestimmte, in ihrer sprachlichen Funktionalität eingeschränkte Anwendungsprogramme" schon recht gut verwenden.

Wie gut - dafür ist unter anderem "Taum" ein schönes Beispiel, das kanadische Wetterbericht-Übersetzungssystem. Es ist innerhalb seines meteorologischen Spezialgebiets - und beschränkt allein auf die offiziellen kanadischen Sprachen Französisch und Englisch - "sehr gut", wie Uszkoreit sagte; doch würde es jede andere Aufgabe überfordern.

Computer übersetzt kanadischen Wetterbericht

Andere Übersetzungs-Computer werden heute gern als Helfer echt lebendiger Übersetzer aus Fleisch und Blut benutzt, denn sie bieten jeweils eine ganze Liste von Wörtern oder Phrasen als Übersetzungsvorschlag an, aus dem der Mensch dann bloß noch zu wählen braucht. Damit erleichtern sie die tägliche Arbeit erheblich.

Daß es jedoch noch keine völlig automatisch arbeitenden Übersetzungssysteme gibt - das müßte nach dem oben Gesagten eigentlich einleuchten. Denn so leicht der Rechner zu einem Wort eine ganze Liste passender Wörter in fremden Sprachen anbieten kann, so schwer tut er sich mit kompletten Sätzen. Ihm fehlt eben noch das nötige "Verständnis für den vollständigen Abbildungsprozeß" von den Zeichen der einen Sprache zur Bedeutung des Gesagten und dann wieder weiter zu den Zeichen der anderen Sprache.

Ein weiteres Beispiel für nützliche Teillösungen der Aufgabe, ein natürlichsprachliches System mit voller Funktionalität zu bauen, stellen natürlichsprachliche Ein-Ausgabe-Systeme für Rechner dar. Schon heute kennt man ja Rechner, die eine begrenzte Zahl von gesprochenen Wörtern hinreichend zuverlässig erkennen und darauf dann korrekt reagieren können; sowie Systeme, die Ausgaben mit synthetischer Sprache, statt über Bildschirm oder Drucker, erzeugen. Das wohl "anspruchsvollste Teilgebiet" der Erforschung natürlichsprachlicher Systeme sind laut Uszkoreit aber jene Automaten, die Texte "verstehen" beziehungsweise aus Texten Wissen extrahieren sollen.

Sie konnten in späteren Jahren vor allem auch in Zusammenhang mit sogenannten Expertensystemen eine hohe Bedeutung erlangen, ist es doch ausgesprochen mühevoll, langwierig und damit teuer, so ein Expertensystem erst mal mit Wissen zu füllen. Zumal dieses Eingeben von Wissen Spezialisten erfordert, die heute als "Wissens-lngenieure" bekannt sind und an denen allgemein Mangel herrscht.

Lilog soll Wissen aus Texten extrahieren

Die Eingabe von Wissen in Expertensysteme könnte hingegen viel "natürlicher und billiger" ablaufen, hätte man Systeme, die aus natürlicher Sprache selbst Wissen extrahieren können. Und nicht zuletzt deshalb arbeitet Uszkoreit ja auch an einem Forschungsprojekt namens Lilog (Linguistische und logische Methoden zum Verstehen deutscher Texte) mit, das die Firma IBM managt und das das maschinelle Extrahieren von Wissen aus deutschen Texten zum Ziel hat.

Im Zuge dieses Forschungsvorhabens sollen Systeme entwickelt werden, die stärker integriert sind, als die heutigen und in denen man erheblich weiter ausgreift als bei früheren Versuchen, schon mit einer Art von simplen Ad-hoc-Lösungen zum Ziel zu kommen.

Das im Zuge von Lilog bearbeitete System, so Uszkoreit, weist in stärkerem Maße als ähnliche Programme eine ausgeprägte Integration der Bereiche Syntax, Semantik und Wissensverarbeitung auf. Dabei soll diese weitgehende Integration wiederum auf Methoden basieren, die neueste Entwicklungen aus den Gebieten der theoretischen Informatik, der Linguistik und anderer Kognitions-Wissenschaften miteinander vereinen.