EXPERTENSYSTEME

Textverstehen erfordert eine Wissensbasis mit Weltwissen

10.07.1992

Auf dem Gebiet der Sprachverarbeitung ist die Wissenschaft vorangekommen. Allerdings sind auch heute noch beispielsweise für die Spracherkennung keine einheitlichen Bedienungskomponenten zu kaufen. Hartmut Krasemann* erläutert den Stand der Dinge bei der Spracherkennung, Spracherzeugung und beim Sprachverstehen.

Erst Organisation dann KI-Einsatz.

In den sechziger Jahren prophezeite eine KI-Koryphäe wie Marvin Minsky noch selbstbewußt, in absehbarer Zukunft müßten wir Menschen uns damit bescheiden, von intelligenten Computern als Haustiere gehalten zu werden. Solche Töne sind mittlerweile selten zu vernehmen.

Expertensystem-Guru Edward Feigenbaum behauptete zwar vor wenigen Jahren, bis zur völlig natürlichsprachlichen Verständigung mit einer digitalen Maschine werde es nicht mehr lange dauern. Daß selbst das eine Illusion bleiben könnte, führen Forschungsbemühungen zur Nutzermodellierung und zu NL-Schnittstellen (NL = natural language) vor Augen. Immer deutlicher wird, daß Expertensysteme als Kind von KI-Forschung und konventioneller DV-Anwendung weniger fachlichen als administrativen Nutzen stiften.

Die Planung einer Expertensystem-Entwicklung erfordert eine enorme Strukturierung und Ausleuchtung des gesamten umgebenden Organisationsprozesses. Ironischerweise wird dadurch oftmals der Systemeinsatz überflüssig, und das kann dann als größter Erfolg verbucht werden. Gleichzeitig scheitert eine große Zahl von Projekten an der mangelhaften oder unterlassenen Integration des Prototypen beziehungsweise fertigen Systems in die bestehende DV-Landschaft. Verwunderlich ist das nicht, denn die Programmierung von Schnittstellen und Pflege des Programms ist mit weit weniger wissenschaftlichem Reiz verbunden als die "Modellierung von Wissen".

Die kritischen Erfolgsfaktoren von Expertensystem-Vorhaben sind vor allem saubere Problemdurchdringung, geglückte technische Einbindung und - entscheidend - die Schaffung eines organisatorischen Umfelds, in dem das Interesse des Managements über die Bewilligung eines bestimmten Budgets deutlich hinausgeht und die Anwender vom Erfolg des Projekts überzeugt sind. Nina Degele

Erkennen ist nicht verstehen

Optische und akustische Mustererkennung sind in der menschlichen Kommunikation Grundlage des Miteinanders. Nur in Einzelfällen kann die technische Kommunikation schon mit der menschlichen Mustererkennung konkurrieren. Die menschliche Sprache wird häufig gleichermaßen als Begründung und Ausdruck von Intelligenz gesehen. Deshalb waren KI-Forscher schon immer von dem Gedanken fasziniert, Sprache zu verarbeiten, das heißt, zu erzeugen oder zu verstehen. Egal, worin die Leistung eines "intelligenten" Computersystems besteht: Wenn sich der Rechner mit Menschen verständigen soll, ist die Sprache das quasi natürliche Kommunikationsmittel.

Genauso faszinierend ist die Möglichkeit, mit dem babylonischen Sprachgewirr auf der Erde besser zu Rande zu kommen, und zwar durch die automatische Übersetzung geschriebener und gesprochener Sprache. Allerdings war der Traum, daß hierfür einige Regeln und Algorithmen ausreichen, spätestens seit dem amerikanische Alpac-Report im Jahre 1966 ausgeträumt.

Heute dagegen, fast 30 Jahre später, glauben die Forscher, zumindest die Probleme der Sprachverarbeitung abschätzen zu können. Richtig erforscht ist die Sprachverarbeitung aber nur teilweise. Jedoch werden diese Teilerkenntnisse heute schon erfolgreich für konkrete Anwendungen in technischen Lösungen genutzt.

Welche Anwendungslösungen gibt es? Die einfachste Form der Sprachverarbeitung ist die äußerliche Manipulation von digitalisierter Sprache. Als bestes Beispiel hierfür kann die Sprachpost (Voice Mail) gelten, die Workstation-Benutzern heute schon zur Verfügung steht. Die digitalisierte Sprache kann wie ein Textdokument abgehört und natürlich auch bearbeitet oder weiterverarbeitet, zum Beispiel elektronisch ediert werden.

Durch die Techniken von Digitalisierung und Kompression werden Sprachdokumente ebenso einfach handhabbar wie zuvor Textdokumente. Diese Technologie wird sich in den nächsten Jahren schnell verbreiten und die Basis legen für den nächsten Schritt, bei dem erst Intelligenz ins Spiel kommt: die Spracherkennung (Speech Recognition).

Trotz Unvollkommenheiten perfekte Lösungen

Darunter ist die Umsetzung von akustischen Signalen in elektronisch lesbare Wörter zu verstehen. Spracherkennung setzt die Digitalisierung der Sprache voraus. Dank ausgefeilter Algorithmen und schneller Signalprozessoren ist diese Technik heute schon weitgehend ausgereift. Nicht einmal neuronale Netze, auf die einige Forscher weitergehende Hoffnungen setzen, können den ausgefeilten"-klassischen" Systemen das Wasser reichen.

Allerdings haben wir Menschen den heutigen Möglichkeiten der Spracherkennung viel voraus: das Verstehen der sprachlichen Inhalte. Erst dieses Verständnis ermöglicht eine eindeutige Interpretation der Äußerungen. Spracherkenner indes bieten dem Benutzer oder den nachfolgenden Programmen zu viele Erkennungsalternativen an. Das Dargebotene erscheint oft unsinnig und aus dem Zusammenhang gerissen.

Trotz dieser unvollkommenen Spracherkennung gibt es schon heute perfekte Lösungen. So haben inzwischen viele Anbieter von Telefonsystemen eine Dialogautomatisierung mit Spracherkennung im Programm. In Telefonsystemen reichen zehn bis 20 Wörter aus, einen gut organisierten Dialog zu führen. Einige werden sich in diesem Zusammenhang vielleicht an das Lindenstraßen-Telefon von WDR und Comsys auf der diesjährigen CeBIT erinnern.

Der eine oder andere CW-Leser mag auch schon einmal mit dem polyglotten Computer MAX von der EG in Luxemburg telefoniert haben. Der Rechner erteilt Auskünfte über die Echo-Datenbanken der EG oder über den ECU-Wechselkurs. Deutsch versteht er unter der Telefonnummer 0130/82 33 34, Englisch unter 0130/82 33 35.

Eine andere funktionierende Lösung, mit unvollkommener Spracherkennung sind spezielle Diktiersysteme, etwa für ärztliche Diagnoseberichte, wie sie die Kurzweil AI in den USA anbietet. Diese Software, von der es bereits mehr als 100 Installationen gibt, ist in der Lage, auf ein Schlüsselwort der ärztlichen Fachsprache hin ganze Absätze des Diagnoseberichts zu produzieren.

Fachleute sind voll des Lobes über den Spracherkenner von Dragon Systems, der als Diktiergerät auf dem Markt angeboten wird. Die pfiffige Lösung: Weil auch dieser Spracherkenner den Text nicht wirklich "verstehen" kann wird die Wortfolge daraufhin überprüft, ob sie üblich ist.

Wortfolgen wird der Vorzug vor unwahrscheinlichen gegeben. Dadurch läßt sich die Fehlerrate drastisch drücken. Diktieren und Fehlerkorrektur kosten in der Regel zusammen nicht mehr Zeit als das Schreiben mit einer Schreibmaschine.

Trotzdem ist das Diktieren in einen Spracherkenner für den Menschen mühsam und anstrengend. Gerade die Diktiersysteme sind darauf angewiesen, daß der Sprecher die einzelnen Wörter deutlich voneinander trennt, also Sprechpausen zwischen den Wörtern macht.

Während dies für den "Normalbenutzer" ein ernsthaftes Hindernis ist, ziehen Behinderte aus dieser Einschränkung durchaus einen Vorteil. In manchen Fällen werden sie erst durch die Spracherkennung in die Lage versetzt, am Computer zu arbeiten, Briefe zu schreiben oder Geräte zu steuern.

Für sie ist Spracherkennung deshalb eine ganz wichtige Technologie - hier findet sich zur Zeit auch der größte Einzelmarkt. IBM hat kürzlich nicht zuletzt im Hinblick auf die Ausstattung von Arbeitsplätzen für Behinderte die Dragon-Technologie für den IBM "Voicetype" lizenziert.

Sprachverstehen noch ein reines Forschungsthema

Spracherkennung mit richtigem Sprachverstehen ist immer noch ein reines Forschungsthema. Optimistische Wissenschaftler denken in Zeiträumen von zehn bis 20 Jahren, in denen auf diesem Gebiet handfeste Fortschritte erzielt werden (auf Verbmobil, den Plan des Bundesforschungsministers, werde ich noch eingehen).

In den nächsten Jahren und Jahrzehnten wird es deshalb vor allem Anwendungen geben, in denen die Spracherkennung auf ganz spezifische Weise integriert wird. So experimentiert die amerikanische Flugsicherungsbehörde derzeit mit Spracherkennung. Auch die deutsche Flugsicherung hegt solche Pläne. Euphorie ist hier aber nicht angebracht: Spracherkennung als Bedienungskomponente ist kein einfaches Serienprodukt. Sie erfordert eine sorgfältige Integration in die Funktionalität des Systems.

Eine große Hürde stellen derzeit auch noch die Preise dar. Mit einem Lotus-Spreadsheet und Spracherkennung etwa läßt sich ein sehr komfortables Rechenblatt erstellen, das mit gesprochenen Kommandos bedient werden kann. Aber der japanische Anbieter mußte sehr schnell erkennen, daß kaum ein PC-Anwender 1000 Mark für eine Lösung ausgibt, die zwar bequem, aber nicht notwendig ist.

Das Sprachverstehen untersuchen Forscher derzeit nicht anhand gesprochener sondern geschriebener Sprache. Auch das ist schwierig genug, wie Erfahrungen bei der maschinellen Übersetzung gezeigt haben. Heute sind KI-Forscher davon überzeugt, daß es unmöglich ist, Texte zu übersetzen, ohne den Inhalt zu verstehen.

Die Zweiteilung des Übersetzungsprozesses in Textverstehen (in der einen Sprache) ist ein grundliegendes Strukturmerkmal moderner Übersetzungssysteme. Dabei gilt das Erzeugen des Textes aus einer formalen Repräsentation als relativ einfach. Schwierig ist das Textverstehen.

"Kleine" PC-Systeme versuchen gar nicht erst, den Text zu verstehen. Sie liefern nur wörtliche Übersetzungen - notgedrungen unvollkommen. Aber auch "große" Systeme, die jeden Satz bis ins einzelne analysieren, übersetzen eben nur Satz für Satz; mit jedem neuen Satz ist der vorhergehende schon "vergessen". Deshalb brauchen auch diese - wie die PC-Systeme - den Menschen, um die Fehler beim Textverstehen wieder auszubügeln. Das gilt für alle, heißen sie nun Systran, Logos oder Metall - und es gilt trotz ausgefeilter Grammatiken und umfangreicher Lexika.

So unvollkommen maschinelle Übersetzungssysteme auch sein mögen, sie helfen doch in vielen Firmen, technische Dokumente zu übersetzen. Oft wird dabei eine Produktivitätssteigerung der Übersetzer um den Faktor zwei bis drei erreicht. Mit einem geschickteren Ansatz, der allerdings bei Sprachpuristen Unbehagen weckt, arbeitet die amerikanische Firma Smart: Der Smart-Editor hilft seinem Benutzer, nur solche primitiven englischen Sätze zu schreiben, die das nachgeschaltete Übersetzungssystem auch "verstehen" kann.

Wie aber kann ein Computer Texte "verstehen"? Einfach ausgedrückt heißt das, alle Informationen, die aus einem Text ableitbar sind, müssen mit ihren gesamten Beziehungen in einer Wissensbasis abgelegt werden. Die größte Schwierigkeit ist nun nicht etwa, diese Wissensbasis beim Lesen des Textes zu füllen, sondern, das Grundwissen bereitzustellen.

KI-Forscher sprechen von Weltwissen: Textverstehen erfordert eine Wissensbasis mit Weltwissen. Dieses Phänomen kennt jeder von uns aus seiner Schulzeit: Es ist praktisch unmöglich, einen anspruchsvollen englischen Text zu verstehen, wenn man nur die Vokabeln kennt, aber nichts von der englischen Kultur weiß. Diese Wissensbasis mit Weltwissen ist das größte Problem. Kein Forscher vermag zu prognostizieren, wie sie endgültig aufgebaut sein muß und wann sie vorliegen kann.

Die ersten Produkte sind auf dem Markt

Praktische Lösungen müssen sich also bescheiden und mit wenig oder sogar ohne Weltwissen auskommen. Solch eine praktische Lösung besteht darin, daß der Computer einen Dialog mit dem Benutzer führt, um seine eigenen Wissenslücken zu schließen, dafür braucht er nur eine relativ kleine Wissensbasis. Dieser Weg wird oft bei natürlichsprachlichen Abfragesystemen für Datenbanken gewählt.

Die ersten Produkte sind in den USA und in Europa bereits auf dem Markt, wie zum Beispiel Loqui, das ursprünglich aus der Esprit-Forschungsförderung der europäischen Gemeinschaft stammt und heute von IBM in Brüssel vermarktet wird. Die Einsatzgebiete der natürlichsprachlichen Schnittstellen sind vielversprechend: In Management-Informationssystemen gestatten sie, Systeme zu bauen, die einem Datenbanklaien den Zugriff auf alle in der Datenbank vorhandenen Informationen ermöglichen.

Öffentliche Informationssysteme mit Millionen von Benutzern sind schlicht kaum anders denkbar als mit einer natürlichsprachlichen Schnittstelle. Hier fällt auch der erhebliche Aufwand, der (heute noch) für den Aufbau der Wissensbasis nötig ist, kaum ins Gewicht.

Sprache wird von Menschen gesprochen und geschrieben. Autorensysteme können ihnen beim Schreiben helfen. Fast jedes Textprogramm, auch das, mit dem dieser Text geschrieben wurde, enthält Trennhilfen und Wörterbücher zur Rechtschreibkorrektur. Für die englische Sprache sind auch längst Grammatikhilfen erhältlich. Ganz neu sind dagegen große Lexika auf CD-ROM, so zum Beispiel das sechsbändige Oxford Dictionary.

Das zugehörige Programm erlaubt völlig neue Benutzungsweisen des Lexikons: das Aussuchen und Sortieren nach Attributen, und zwar nicht nur nach Stichwörtern, sowie das schnelle Verfolgen von Querverweisen. Autorensysteme können noch mehr. Ihr Thesaurus erlaubt, spezielle Begriffe einer Branche, einer Firma oder einer Anwendung einzutragen und zu verwalten. Die in einem Text benutzten Begriffe lassen sich auf diese Weise konsistent halten. Dies erspart - vor allem wenn ein ganzes Team einen Text verfaßt - viel redaktionelle Nacharbeit. Ganz klar, daß Firmen, denen an konsistenter Dokumentation liegt, einen Thesaurus mit den Begriffen aus ihrem Fachgebiet füllen.

Die mächtigsten dieser Werkzeuge fallen schon unter den Begriff "computerunterstütztes Übersetzen", denn ein solche Thesaurus läßt sich auch mehrsprachig anlegen. Dann hilft er nicht nur beim Verfassen von Originaltexten, sondern auch bei der Übersetzung.

Bei den "großen" Übersetzungssystemen geht es auch darum, das Generieren, also den zweiten Teil des Übersetzens, perfekt hinzubekommen. Das gelingt ihnen auch - soweit der Ausgangstext richtig "verstanden" worden ist.

In der Tat halten Computerlinguisten das Generieren von Texten aus einer sprachunabhängigen Wissensrepräsentation schon heute für möglich. Ein eindrucksvolles Beispiel dafür war die natürlichsprachliche Erklärungskomponente Twaice von Nixdorf. Sie hat aus der Wissensrepräsentation des Expertensystems die Erklärungstexte in wohlgeformten und auch sinnvollen deutschen Sätzen erzeugt.

Einige Computerlinguisten meinen, daß auf mittlere Sicht die Generierung von Texten aus einer Wissensbasis heraus zu einer echten Konkurrenz der maschinellen Übersetzung wird. Dies setzt voraus, daß die Dokumente in diese Wissensbasis "hineinprogrammiert" werden. Der Vorteil liegt in der automatischen Generierung des Textes in allen gewünschten Zielsprachen, ohne die Probleme des mangelhaften Textverstehens in Kauf nehmen zu müssen.

Systran veraltet und Eurotra zu ehrgeizig

Für KI-Forscher ist klar, daß diese Wissensbasis keine irgendwie geartete Sprache sein kann wie zum Beispiel Esperanto, sondern eine typische Wissensrepräsentation der KI sein muß, weit komplexer als zum Beispiel die Regeln eines Expertensystems.

Man könnte die entsprechenden sprachunabhängigen "Dokumente" auch noch anders benutzen. So läßt sich beispielsweise die Wissensbasis einer Maschine, aus der die Dokumentation für diese Maschine erzeugt wird, auch für ein Diagnoseexpertensystem verwenden.

In Brüssel wurde die Bedeutung der Sprachtechnologie für den vielsprachigen europäischen Wirtschaftsraum schon früh erkannt. Man konzentrierte sich auf maschinelle Übersetzungen. Einerseits erwarb die Europäische Gemeinschaft Rechte am Übersetzungssystem Systran, andererseits forderte sie die Forschung und Entwicklung eines eigenen europäischen Übersetzungssystems: Eurotra.

Von einigen Fachleuten wird kritisiert, daß Systran technologisch zu alt (60 Jahre), von anderen, daß Eurotra zu ehrgeizig sei. Jedenfalls hat es bei Eurotra durchaus Enttäuschungen gegeben. Deshalb wird in der Kommission untersucht, ob nicht ein anderes Programm aufgesetzt werden sollte, das ganz deutlich auf praxisbezogene Lösungen zielt, die in absehbarer Zeit auch mit unvollkommener Technologie implementierbar sind.

Simulationsdolmetscher im Walkman-Format

Ganz anders geht dagegen der Bundesforschungsminister vor: Das Projekt Verbmobil, die Vision eines Simultandolmetschers im Walkman-Format, soll zwei bisher eher getrennte Forscher- und Entwicklergruppen zusammenbringen und anspornen. Die eine Gruppe befaßt sich bisher mit der Erkennung gesprochener Sprache, die andere mit dem Verstehen geschriebener Sprache.

Die Kombination beider Forschungsrichtungen eröffnet neue Perspektiven, darin sind sich die Fachleute einig. Gleichwohl ist allen Beteiligten klar, daß die auch nur angenäherte Verwirklichung von Verbmobil Jahrzehnte dauert. Bis zur vollständigen Beherrschung der Sprache durch Computer ist es noch ein langer Weg.

*Dr. Hartmut Krasemann ist bei der CAP debis BeCom verantwortlich für Neue Technologien.

Grafik:The Image Bank