Der intelligente Sprachroboter ist noch Utopie:Keine Spur von Sprachgefühl

25.08.1989

Eines der schwierigsten Anwendungsgebiete für den Computer ist die Verarbeitung natürlicher Sprachen. Auch nach jahrzehntelangem Forschen ist das Ergebnis noch unbefriedigend: Computer haben Mühe mit dem Hören und erst recht mit dem Verstehen.

Bei den Kölner Fordwerken übernimmt ein Computer auf Zuruf die Verwaltung eines Ersatzteillagers mit 77 000 verschiedenen Teilen. 20 Mitarbeiter des Konzerns haben die 50 Computerbefehle, mit denen man in diesem Lager auskommt, dem Rechner solange vorgesprochen - auf Hochdeutsch, im Kölner Dialekt, mit ausländischem Akzent oder mit dem Lärm der Lagerhalle im Hintergrund, bis er alle Varianten gespeichert hatte und sich daraus ein typisches Sprachmuster jedes Sprechers gemerkt hatte. Damit vergleicht er die ihm zugerufenen Befehle und führt dann aus, was ihm nach seinem Verständnis aufgetragen wurde.

Das System ist, wie es im Fachjargon heißt, "sprecher- und einzelwortbezogen". Von einem wirklichen Sprachverständnis sind Computer allerdings noch meilenweit entfernt - und werden es vorerst auch wohl bleiben.

Die gesprochene Sprache beibringen

Bemühungen, der Maschine wenigstens ein rudimentäres Sprachempfinden einzuimpfen, ziehen sich wie ein roter Faden durch die Entwicklungsgeschichte der Computer. Die ersten Arbeiten zielten darauf ab, militärische Verschlüsselungen zu entziffern. Das war nicht nur ein mathematisches Problem - auch die Sprache spielte dabei eine große Rolle. Nach dem Krieg begannen Linguisten Computerprogramme zu entwickeln, die fähig sind, natürliche Sprachen zu übersetzen. Obwohl dieses Ziel auch heute erst teilweise erreicht ist, arbeiten die Spezialisten bereits an einem noch ehrgeizigeren Projekt: Sie wollen dem Rechner das Hören und Verstehen beibringen.

Die Schwierigkeiten sind allerdings enorm: Selbst die besten Prototypen in den Labors besitzen nicht einmal die sprachlichen Fähigkeiten eines Kleinkindes. Das liegt einmal an der Spracherkennung: Jeder Mensch artikuliert wieder anders, was den Computer verwirrt. Aber selbst wenn die Maschine das Gesprochene hundertprozentig erkennen würde, hätte sie Mühe mit dem Verstehen, weil sie nicht fähig ist, beim Aufnehmen und Bewerten von Sprache das Umfeld genügend in Rechnung zu stellen. Dies ist aber nötig, um mit der unvermeidlichen Mehrdeutigkeit natürlicher Sprachen zurechtzukommen.

Das fängt bereits bei einfachen Aussagen an wie "Das Schloß stammt aus dem letzten Jahrhundert". Sie liefert keinen Hinweis, ob mit "Schloß" ein Gebäude oder eine Vorrichtung zum Abriegeln gemeint ist - eine lexikalische Mehrdeutigkeit.

Der Satz "Der Detektiv beobachtet den Fremden mit dem Feldstecher" ist ebenfalls mehrdeutig. So wie er dasteht, läßt er völlig offen, ob der Feldstecher das Beobachtungswerkzeug des Detektivs oder ein Accessoir des Fremden ist.

Ein anderes Beispiel: "Meier ist bereit zum Fotografieren." Hier bleibt unklar, ob Meier selber fotografieren will oder ob er abgelichtet werden soll. Ersetzt man Meier durch Kocher, ist nicht mal sicher, ob es sich bei Kocher um einen Gegenstand oder eine Person handelt.

Semantisch mehrdeutig ist der Satz "Peter will ein Haus kaufen", denn er sagt nicht, ob Peter ein bestimmtes Haus im Auge hat oder ob er lediglich beabsichtigt, sich auf dem Immobilienmarkt umzusehen. Schließlich noch ein Beispiel für die sogenannte pragmatische Mehrdeutigkeit: "Er schlug mit dem Stock auf den Gegenstand und zerbrach ihn." - den Stock oder den Gegenstand?

Man sieht - so einfach ist es gar nicht, Sprache zu verstehen. Aber die tägliche Erfahrung zeigt, daß Menschen - auch Kinder - bei solchen Mehrdeutigkeiten in der Regel wenig Mühe haben, aus dem Zusammenhang heraus zu entscheiden, welche Variante zutrifft. Ein ähnlich sicheres Urteilsvermögen zeigt bislang - nach bald 50 Jahren Computergeschichte - noch keine Maschine. Es gibt kein Computerprogramm, das einer natürlichen Sprache mächtig wäre.

Was müßte denn so ein Programm alles können? Nehmen wir an, ein schwieriger Teil der Aufgabe, nämlich das Umsetzen von Schallwellen in Wörter, sei bereits gelöst - der Text liege also schriftlich vor.

Nun geht es darum, die einzelnen Wörter zu zerlegen. Ein Wort wie "schreibst" setzt sich zusammen aus der Wurzel "schreib" und der Endung "st". "Schriebst" gehört zur gleichen Wurzel, aber diesmal handelt es sich um eine Vergangenheitsform. Schwieriger wird es für den Computer, aus einem Wort wie "liest" die Wurzel ("les") zu gewinnen. Zur langen Liste sprachlicher Regeln gesellt sich eine mindestens ebenso lange Liste von Ausnahmen.

Das Heraustüfteln der Wurzel - eleganter kann man die Tätigkeit des Computers wohl kaum bezeichnen - ist aber erst der Anfang. Es folgt die mindestens ebenso heikle lexikalische Analyse, welche die Wörter in die verschiedenen Kategorien einteilen soll: "Hell" und "Dunkel" sind Eigenschaftswörter; das letztere kann aber auch ein Hauptwort sein. Bei "Floh" muß sich das Programm entscheiden zwischen Hauptwort (der Floh) und Tätigkeitswort (er/sie floh), während "flohst" wieder ein klarer Fall ist.

Wenn das erledigt und jedes Wort mit lexikalischen und Merkmal-Informationen im Computer abgespeichert ist, sollte das Programm mit Hilfe der Grammatikregeln die Struktur der einzelnen Sätze bestimmen. Zu diesem Zweck haben die Linguisten eigens für den Computer Spezialgrammatiken entwickelt. Der Pionier auf diesem Gebiet ist Noam Chomsky.

Auch hier lauern Probleme an allen Ecken und Enden. So ist nicht immer klar, welche Rolle ein Satzteil in einem Gesamtsatz spielt oder ob die darin vorkommenden Wörter überhaupt zusammengehören. Ein Beispiel: "Kinder spielen gerne Fußball." Die ersten zwei oder drei Worte allein ergeben bereits einen grammatikalisch richtigen Satz. Aber ein sinnvolles Ganzes kommt dabei nicht heraus, da in beiden Fällen der Rest zusammenhanglos stehenbleibt.

Bienenfleißig, aber ineffizient

Natürlich kann der Computer die verschiedenen Möglichkeiten systematisch nach sinnvollen Aussagen abklopfen - wobei man der Maschine natürlich mitteilen muß, was denn in einem bestimmten Zusammenhang überhaupt sinnvoll ist. Sehr effizient ist diese Hau-Ruck-Methode allerdings nicht. Fortgeschrittene Systeme können heute bis zu 90 Prozent aller Sätze grammatikalisch verarbeiten, aber das hat mit intelligentem Sprachverhalten nur sehr wenig zu tun.

Während der Mensch fast automatisch die wenigen Möglichkeiten einer Aussage in Betracht zieht, die eine vernünftige Bedeutung haben, rechnet der Computer an den Hunderten oder gar Tausenden von Varianten herum, die theoretisch möglich sind. Das mutet um so kläglicher an, als die Maschine noch gar nicht am Ende ist mit ihrer Aufgabe: Sie muß den grammatikalisch fertig analysierten Satz noch in eine Form übersetzen, aus der sie Schlußfolgerungen ziehen kann.

Nun ist Logik zwar eine der Starken des Computers - aber eben Maschinenlogik, und die allein genügt für das Verstehen von Sprache nicht: Menschen denken anders.

Wir sagen zum Beispiel "Rosen blühen im Garten" und nicht: Es gibt etwas, das ist ein Garten und eine Teilmenge davon ist eine Rose und die blüht."

Genügt übrigens eine einzige Rose, um den Tatbestand des Blühens zu erfüllen - oder braucht es dazu mindestens zwei? Solche Fragen beschäftigen den Computer, und häufig sagt ihm das Programm nicht, wie er sich entscheiden soll. Die Maschine ist stur - sie soll es auch sein - aber das paßt schlecht zum gesunden Menschenverstand, einem Denken, das sich gewöhnlich auf Normalannahmen verläßt, ohne sich um nebensächlich scheinende Ausnahmen zu kümmern. Für uns signalisiert das Wort "Bakterien" zunächst einmal "Ungesund, gefährlich" - obschon es auch viele nützliche Bakterien gibt.

Ganz am Schluß sollte ein künftiger Sprachcomputer das Gehörte auch noch auf mögliche Zusammenhänge hin ausloten. Die Sätze, die jemand spricht, beziehen sich meist auf ein bestimmtes Hintergrundwissen, das der Adressat teilt oder eben nicht teilt. Während sich das Wort "ich" noch einigermaßen sicher einordnen läßt - in der Regel meint der Sprecher damit sich selbst - wird es bei "wir" bereits problematisch: Bezieht sich das nun auf Sprecher und Hörer oder auf Sprecher und Dritte oder auf alle zusammen?

Bei der Bedeutungsanalyse türmen sich denn auch die Schwierigkeiten - zumindest für einen Computer. Damit er die Aussage "Der Beamte auf der Post war unhöflich" so interpretiert wie die meisten von uns (daß der Sprecher das Opfer eines unhöflichen Postbeamten war), muß man ihm vorher via Programm eine Art Spielanweisung für Postbesuche und die dabei möglichen Situationen einimpfen. Das heißt aber, daß der Schöpfer einer einigermaßen sprachverständigen Maschine praktisch hellseherische Fähigkeiten haben sollte: Wie soll er sonst wissen, welche verzwickten Situationen das Programm in der Praxis überhaupt meistern muß?

Man sieht, die Liste der Anforderungen wächst ins uferlose - erst recht, wenn der Computer auch noch mit Mehrdeutigkeiten fertig werden soll, wie sie am Anfang zur Sprache kamen. Fazit: Der intelligente Sprachroboter ist noch eine Utopie und wird es wahrscheinlich auch in Zukunft bleiben.