Shakespeare ist noch nichts für Rechner

Die Kinderkrankheiten der Maschinellen Übersetzung

06.10.1989

Prof. Dr. Christian Rohrer ist am Institut für Maschinelle Sprachverarbeitung - Bereich Computerlinguistik - an der Universität Stuttgart tätig und war Leiter des Münchner Summit II für Maschinelle Übersetzung.

Vom 16. bis 18. August fand in München das zweite Gipfeltreffen für Maschinelle Übersetzung statt (MT Summit II). Wie beim ersten Gipfel in Hakone, Japan, vor zwei Jahren trafen sich über 200 Anwender, Entwickler und politische Entscheidungsträger, um den praktischen Einsatz Maschineller Übersetzungssysteme zu diskutieren. Der Akzent lag auf dem Bezug zur Praxis.

Es werden heute in der Werbung Maschinelle Übersetzungssysteme angepriesen, welche laut Prospekt perfekte Übersetzungen liefern, so daß sich mancher Vorstand fragt, ob er nicht die Übersetzungsabteilung seines Unternehmens auflösen könnte. Die Münchner Tagung sollte als Anlaß dienen, um den heutigen Stand der Maschinellen Übersetzung zu beschreiben und um Fragen zu diskutieren

wie: Was ist ein Maschinelles Übersetzungssystem? Welches sind die wichtigsten linguistischen Probleme bei der Entwicklung eines Maschinellen Übersetzungssystems? Was leisten Maschinelle Übersetzungssysteme heute? Wo sind sie einsetzbar und wo liegen ihre klaren Grenzen? In welchen Bereichen sollte man sie auf keinen Fall einsetzen? Welche Organisationen und welche Firmen engagieren sich in diesem Bereich?

Natürliche Sprachen sind komplexe Gebilde, die auf verschiedenen Ebenen strukturell ,beschrieben werden können. Solche linguistischen Ebenen sind z.B. die der Wortstruktur, der Satzstruktur und der Satz- oder Textbedeutung. Diese Trennung von Ebenen geht oftmals auch einher mit einer Abstraktion von spezifischen Eigenschaften der Form eines sprachlichen Ausdrucks. So spielt die Reihenfolge der einzelnen Wörter und ihre spezifische Form bei der Beschreibung der Bedeutung nur eine untergeordnete Rolle.

In Anlehnung an diese Trennung von Ebenen haben sich im Laufe der Zeit verschiedene Ansätze in der MÜ herausgebildet, die man als direkten Ansatz oder Wort-für-Wort-Übersetzung, als Transfer- oder als Interlingua-Ansatz bezeichnet. Jeder dieser Ansätze weist unterschiedliche Vor- und Nachteile bezüglich Verarbeitungsgeschwindigkeit, Qualität der Übersetzung und Aufbau der

Systeme auf. Dabei hat sich jedoch gezeigt, daß diejenigen Ansätze, die eine komplexere Analyse über die Wortebene hinaus vornehmen, langfristig sich als überlegen erweisen werden.

Die einfachste Art der Maschinellen Übersetzung besteht nur aus einer Suche im Wörterbuch und der Ersetzung eines Wortes der Quellsprache durch das entsprechende Wort der Zielsprache. Angenommen, Sie wollen den Satz "jeder Mann liebt eine Frau" ins Englische übersetzen. Das Wörterbuch besteht aus Einträgen, in denen jedem deutschen Wort ein englisches Wort zugeordnet wird:

jeder : every

Mann : man

liebt : loves

eine : a

Frau : woman

Das Programm liest den deutschen Eingabesatz, erkennt das erste Wort, ersetzt es durch sein englisches Äquivalent und geht weiter zum nächsten Wort. In unserem Beispiel würde sogar eine richtige englische Übersetzung herauskommen.

Diese Art der Wort-für-Wort-Übersetzung setzt ein Vollformenlexikon voraus, d.h. ein Lexikon, das gesonderte Einträge enthält für "(ich) liebe", "(du) liebst", "(er) liebt" etc. Ein Vollformenlexikon ist unökonomisch. Deshalb enthalten fast alle Maschinellen Übersetzungssysteme ein Programm zur morphologischen Analyse, das heißt ein Programm, welches die Wörter der Quellsprache in ihre kleinsten bedeutungstragenden Teile (Morpheme) zerlegt. Das Wort "liebt" kann zerlegt werden in den Stamm "lieb" und die Endung "t". Mit der Endung "t" wird die Information kodiert, daß sie dritte Person, Einzahl, Präsens ausdrückt.

Das Lexikon enthält nun nur Wortstämme und deren Entsprechung in der Zielsprache. Bei der Erzeugung der korrekten Wortform in der Zielsprache wird aus Stamm und der Information "dritte Person, Einzahl, Präsens" das Wort "loves" generiert. Man bezeichnet diesen Vorgang als morphologische Generierung.

Was die Analyse der Quellsprache angeht, so kann ein MÜ-System, das nur Wort für Wort ohne Kontext übersetzt, nicht mehr als ein Korrekturprogramm. Ein einfaches Korrekturprogramm korrigiert auch nur isolierte Wörter und findet keine Fehler wie "der alter Mann", "das Frau" etc.

Selbstverständlich führt eine Wort-für-Wort-Übersetzung nur in Ausnahmefällen zu einem korrekten Satz in der Zielsprache. Unser Beispiel in Nebensatzstellung "weil jeder Man eine Frau liebt" würde bei ein Wort-für-Wort-Übersetzung ins Englische einen ungrammatischen Satz ergeben.

Jeder Übersetzer weiß, daß man bei der Übersetzung fast nie die Wortstellung beibehalten kann. Aus diesem Grund folgt in fast allen Maschinellen Übersetzungssystemen auf die morphologische Analyse eine syntaktische Analyse.

In der syntaktischen Analyse werden die Wörter eines Satzes zu größeren Einheiten zusammengefaßt. Die Ausgabe der syntaktischen Analyse ist in der Regel eine Baumstruktur (oder ein Graph) mit etikettierten Knoten.

Die syntaktische Analyse setzt eine Grammatik voraus. Eine Grammatik für eine Sprache ist eine Menge von Regeln die angeben, weiche Folgen von Wörtern grammatische Sätze dieser Sprache sind. Die Grammatik gibt an, wie Wörter zu Gruppen (zum Beispiel Nominalgruppe oder Verbalgruppe) zusammengefügt werden können und in welcher Reihenfolge diese Gruppen auftreten können.

Grammatiken werden heute auch schon in fortschrittlichen Korrekturprogrammen eingesetzt und in Systemen, welche den Stil des Autors verbessern sollen (zum Beispiel Critique von IBM für das Englische). Eine besonders einfache Art von Grammatik ist eine (kontextfreie) "Phrasen-Struktur-Grammatik", ein Grammatik-typ, welcher den Informatikern aus dem Compilerbau bekannt ist. Beispiele für Regeln einer kontextfreien Grammatik sind: Satz --> Nominalphrase, Verbalphrase Nominalphrase --> Artikel, Nomen

Die Baumstruktur, welche die syntaktische Analyse als Ausgabe liefert, bildet die Eingabe für die Transferkomponente. Unter Transfer versteht man die Übertragung von Strukturen der Quellsprache in Strukturen der Zielsprache. Der Transfer kann auf verschiedenen Ebenen erfolgen. Beim syntaktischen Transfer wird die Baumstruktur der Quellsprache in eine Baumstruktur der Zielsprache abgebildet.

Da unser Beispielsatz im Englischen ungefähr die gleiche syntaktische Struktur hat wie im Deutschen, haben wir einen Transfer ins Japanische gewählt. Im japanischen steht auch im Hauptsatz das Verb am Satzende. Die Transferkomponente müßte deshalb eine Struktur liefern gemäß der Abbildung, wobei wir der Einfachkeit halber den Quantor "jeder" weggelassen haben:

Transfer auf syntaktischer Ebene ist besser als Transfer auf Wortebene. Trotzdem kann man sich noch ein besseres Verfahren denken. Die folgenden Sätze haben die gleiche Bedeutung, aber eine verschiedene syntaktische Struktur:

- weil der Verkäufer dem Kunden das Auto verkaufen wollte

- weil der Verkäufer das Auto dem Kunden verkaufen wollte

Wenn man den Transfer auf der Ebene der Bedeutung (Semantik) durchführen könnte, brauchte man für diese zwei Sätze nur eine Transferregel und nicht zwei.

Wie eine semantische Repräsentation auszusehen hat, ist unter Linguisten umstritten. Die Kriterien sind weniger offensichtlich als in der Syntax. In einigen japanischen MÜ-Projekten wird eine Ebene verwendete die zwischen Syntax und Semantik steht.

Eine semantische Repräsentation im wörtlichen Sinne ist eine Übersetzung in Formeln der (Prädikaten-)Logik. Vereinfacht formuliert könnte man sagen, daß das System Rosetta von Philips Sätze der Quellsprache in logische Formeln übersetzt, aus welchen dann die Übersetzung in die Zielsprache erzeugt wird.

Beim Transfer auf semantischer Ebene entfernt man sich schon relativ weit von der syntaktischen Oberfläche der Sätze, das heißt von der Reihenfolge der Wörter im Satz. In manchen semantischen Repräsentationen werden sogar die einzelnen Wörter noch in kleinere inhaltliche Bestandteile zerlegt. So kann man zum Beispiel die Bedeutung von "Sohn" definieren mit Hilfe von "Kind" und "männlich".

Der nächsttiefere und wohl letzte Schritt besteht darin, eine Interlingua, eine Zwischensprache, zu entwickeln, in welcher man die Bedeutung von beliebigen Sätzen aus beliebigen Sprachen darstellen kann. Die Vorteile einer Interlingua liegen auf der Hand. In einem Transfermodell, ob syntaxbasiert oder semantikbasiert, muß man so viele verschiedene Transferkomponenten definieren, wie man Sprachpaare hat. Im MÜ-Projekt der EG, dem Eurotra-Projekt, werden zur Zeit neun Sprachen bearbeitet. Das heißt man hat 72 Sprachpaare. Was bedeutet, daß man 72 Transferkomponenten zu schreiben hat. In einem Interlinguamodell hätte man nur neun Analyse- und neun Generierungskomponenten. MÜ auf Basis einer Interlingua wird zur Zeit von Fujitsu versucht (System Atlas) und im Projekt ODA, einem Projekt zwischen Japan und seinen Nachbarländern mit den Sprachen Chinesisch, Japanisch, Koreanisch, Malayisch und Thailändisch. Eine Originelle Variante wird in Holland erprobt. Dort verwendet T. Witkam Esperanto als Interlingua für sein MÜ-System.

Natürliche Sprachen sind komplizierter als man denkt. Sobald man versucht, ihre Regeln präzise zu fassen um sie auf den Rechner zu bringen, stößt man auf eine Schwierigkeit nach der anderen. Wichtige Probleme für die MÜ sind etwa syntaktische Mehrdeutigkeiten.

Bezieht sich in "alte Männer und Frauen" das Adjektiv nur auf "Männer" oder auch auf "Frauen"? Wenn eine Kundin fragt: "Kann ich das Kleid im Schaufenster anprobierend?", so ist es unwahrscheinlich, daß man meint, sie wolle das Schaufenster als Umkleidekabine benutzen. Für einen Computer sind die beiden Bedeutungen (die Kundin ist im Schaufenster oder das Kleid ist im Schaufenster) gleich wahrscheinlich,

wenn man nicht neben rein syntaktischen Bedingungen weitere Informationen eingibt.

Solche Beispiele mögen künstlich wirken. Aber selbst in Texten, wo die Autoren sich um eine klare und eindeutige Ausdrucksweise bemühen, zum Beispiel im Kursbuch der Deutschen Bundesbahn, findet man Sätze wie: "Fahrausweise für Hin- und Rückfahrt bis 100 km gelten an dem auf dem Fahrausweis angegebenen Tag. "Müssen Hin- und Rückfahrt zusammen unter 100 km liegen, oder kann jede der beiden Fahrstrecken bis 100 km lang sein?

Glücklicherweise müssen syntaktische Mehrdeutigkeiten nicht immer aufgelöst werden. Oft bietet die Zielsprache eine Konstruktion, welche die gleiche Mehrdeutigkeit aufweist. "Old men and women" ist genauso zweideutig wie alte Männer und Frauen". Im Französischen dagegen muß die Mehrdeutigkeit aufgelöst werden, wenn das Adjektiv hinter dem Nomen steht.

Wir brauchen sprachvergleichende Untersuchungen zur Frage: Welche Mehrdeutigkeiten können von der Quellsprache in die Zielsprache übernommen werden? Das heißt es muß klar sein, welche Mehrdeutigkeiten ein System ignorieren kann und welche Ambiguitäten erkannt werden müssen, auch wenn der Rechner nicht in der Lage sein sollte, selbständig die Auswahl der adäquaten Interpretation zu treffen. Wenn ein MÜ-System mit einer Interlingua arbeitet, müssen alle Mehrdeutigkeiten der Quellsprache aufgelöst werden. In einer Reihe von MÜ-Systemen werden im Pre-editing manuell syntaktische Mehrdeutigkeiten aufgelöst. Man markiert durch Klammern, welche Teile zusammengehören (zum Beispiel "[alte Männer]und Frauen").

Wenn wir einen kleinen Text lesen wie "Hans brauchte Marias Bleistift. Sie gab ihn ihm.", so wissen wir, daß "ihn" sich auf "Bleistift" bezieht und "ihm" auf "Hans". Bei der Übersetzung ins Englische "she gave it to him" muß der Rechner diese Beziehungen (das heißt zwischen "ihn" und "Bleistift") über die Satzgrenze hinweg herstellen. Dafür gibt es bis heute noch kein allgemeingültiges Verfahren. Manche MÜ-Systeme übersetzen jedes deutsche Pronomen mit "he/she/it" und lassen den Leser oder einen Post-editor das richtige aussuchen.

Wer beim MT-Summit die MÜ-Systeme für Japanisch --> Englisch getestet hat, konnte feststellen daß ein Satz wie ( japanischer Satz) mit der Bedeutung, "die Sitze in meinem Auto sind aus echtem Leder", je nach System unterschied ich herauskam. Neben "die Sitze" wurde "der Sitz" und "ein Sitz" ausgegeben. Dies liegt daran, daß im Japanischen der Unterschied zwischen Singular und Plural oft nicht

gemacht wird, und daß ferner das Japanische keine angemessene Form

für den bestimmten und den unbestimmten Artikel hat; mit anderen Worten, die Eingabe stellt nicht genügend Information zur Verfügung und ist "unterspezifiziert". Die MÜ-Systeme haben spezielle Heuristiken, um bei der Übersetzung aus dem Japanischen in der Zielsprache den korrekten Artikel und/oder Einzahl oder Mehrzahl zu wählen. Wie das Beispiel zeigt, können diese Heuristiken fehlschlagen.

Betrachten Sie den folgenden Satz aus der Werbung einer Versicherungsgesellschaft: "Es ist nicht sicher, ob die Renten in 20

Jahren noch sicher sind." Im Englischen ist "sicher" in diesem Satz das erste Mal mit "certain" und das zweite Mal mit "guaranteed" zu übersetzen. Aber wie weiß das der Computer? Oder denken Sie an die Frage von Karl Valentin. "Was sind Fremde unter Fremden?" und seine Antwort: "Fremde unter Fremden sind: Wenn Fremde über eine Brücke fahren und unter der Brücke fährt ein Eisenbahnzug mit Fremden durch, so sind die durchfahrenden Fremden Fremde unter Fremden." Wie weiß der Computer, wann er "unter" mit "under" und wann mit "among" übersetzen muß?

Man geht heute vor allem zwei Wege, um Mehrdeutigkeiten auf Wortebene auszuschalten. Erstens erlaubt die Angabe des Fachgebiets, aus dem der Text stammt, häufig eine klare Entscheidung. Im Finanzteil einer Zeitung ist ein Barren eher ein Goldbarren als ein Turngerät. Zweitens: Man formuliert Bedingungen, welche (unmittelbar) vorangehende oder nachfolgende Wörter erfüllen müssen. Das Wort "laufen" muß im Französischen mit "courir" übersetzt werden, wenn das Subjekt einen Menschen oder ein Tier bezeichnet (Hans läuft). Bezeichnet das Subjekt eine Flüssigkeit (das Wasser läuft), so muß "laufen" durch "couler" wiedergegeben werden.

Solche Bedingungen sind leicht zu formalisieren. Was sich mit diesen beiden Verfahren nicht erfassen läßt, muß über die Formalisierung von allgemeinem Weltwissen oder über Expertensysteme gelöst werden. Bis dahin ist aber noch ein sehr weiter Weg.

Ein Linguist könnte noch weitere sprachliche Probleme aufzählen wie Ellipsen, Bezug von Negation etc. Damit der Leser nicht den Eindruck erhält, MÜ sei überhaupt nicht möglich, möchte ich mich nun positiveren Aspekten zuwenden.

Voraussetzungen für MÜ auf der Hardware-Ebene

Maschinelle Sprachverarbeitung im allgemeinen und MÜ im besonderen setzt voraus, daß große Mengen an morphologischer, syntaktischer und semantischer Information gespeichert und verarbeitet werden können. Im Jahre 1966 hat eine Kommission der Akademie der Wissenschaften in Washington empfohlen, die Forschung an MÜ einzustellen, da Erfolge in diesem Bereich in absehbarer Zeit nicht zu erreichen seien. Vergleicht man den Stand der Computertechnologie von 1966 mit dem von 1988, so kommt man zu folgendem Ergebnis:

Der Kernspeicher einer heutigen Workstation ist 100mal so groß wie der einer Mainframe von 1966. Das gleiche gilt für den Plattenspeicher. Die Verarbeitungsgeschwindigkeit hat ebenfalls um den Faktor 100 zugenommen, während der Preis um den gleichen Faktor gefallen ist. Man kann also sagen, daß sich die Leistung einmillionenmal verbessert hat. Damit sind die Entwickler von MÜ-Systemen praktisch keinen Hardware-Beschränkungen mehr unterworfen. Die Schwierigkeiten der MÜ liegen heute, wie wir schon weiter oben gesehen haben, im sprachlichen Bereich, in der Entwicklung umfangreicher einzelsprachlicher Grammatiken für die Analyse und Generierung und im Sprachvergleich auf einer formal präzisen Ebene.

Es gibt heute MÜ-Systeme, die täglich übersetzen. Das kanadische System Taum-Meteo übersetzt Wetterberichte vom Englischen ins Französische, 1,6 Milliarden Wörter pro Jahr. Gegenstandsbereich und Eingabesprache sind sehr stark eingeschränkt. Taum-Meteo kann nur Wetterberichte übersetzen, und auch die nur, wenn die vorgeschriebenen Konstruktionen verwendet werden.

Das System Titus beim französischen Textilinstitut übersetzt Texte aus dem Textilbereich mit eingeschränkter Syntax zwischen Französisch, Englisch, Deutsch und Spanisch.

MÜ ist schon heute sinnvoll, wenn Sie große Mengen von technischen Texten zu übersetzen haben, die schon auf dem Rechner zur Verfügung stehen. Letzteres dürfte heute der Normalfall sein. Außerdem macht ja auch die maschinelle optische Zeichenerkennung rasche Fortschritte. Ferner müssen Sie auf Abfassung der Texte Einfluß nehmen können, indem Sie etwa den technischen Redakteuren Informationen darüber geben, welche sprachlichen Phänomene dem System Schwierigkeiten bereiten.

So sollten zum Beispiel syntaktische Mehrdeutigkeiten, wenn möglich, vermieden werden. Diese sind ja auch oft für den Leser störend. Weiterhin sollte der technische Redakteur nicht alle Möglichkeiten der deutschen Syntax voll ausschöpfen und Sätze von Hegelscher Komplexität erzeugen (ein Germanistikprofessor hat mir anvertraut, daß die Studenten sein neuestes Buch lieber in der englischen Übersetzung lesen, da der Übersetzer einfacher und klarer schreibe).

Da heute Firmen beginnen, technische Dokumentation und technische Übersetzung in der gleichen Abteilung anzufertigen, ergeben sich gute Möglichkeiten der Zusammenarbeit zwischen technischen Redakteuren und technischen Übersetzern beim Einsatz von MÜ-Systemen. Hat man keinen Einfluß auf die Abfassung der Texte, so kann durch Pre-editing, unterstützt durch benutzerfreundliche Software, ein Teil der Schwierigkeiten ausgeräumt werden. Was übrig bleibt, muß im Post-editing oder durch interaktiven Eingriff während des Übertragungs-Prozesses korrigiert werden.

Unter den geschilderten Voraussetzungen kann nach der Einarbeitungszeit eine Leistungssteigerung von mindestens 50 Prozent erreicht werden. Dabei wird noch vorausgesetzt, daß das Lexikon für die speziellen Texte entsprechend erweitert worden ist. Das heißt, der Anwender wird in der Regel seine spezielle Terminologie einbringen. Das IBM-interne System Shalt (IBM Japan) übersetzt zum Beispiel Bedienungshandbücher vom Japanischen ins Englische. Nach eigenen Angaben sollen bis in 3-5 Jahren alle Handbücher von IBM Japan maschinell ins Englische übersetzt werden.

Die Firma Siemens berichtet, daß mit ihrem System Metal, das seit einem Jahr verkauft wird, unter günstigen Umständen sogar eine Leistungssteigerung um 160 Prozent bis 200 Prozent erreichbar ist.

Bei diesen Beispielen, etwa die Übersetzung von Handbüchern, gehen wir natürlich davon aus, daß die Qualität der eines menschlichen Übersetzers entspricht. Das Handbuch soll ja den Kunden in die Hand gegeben werden. Wenn es allerdings nur darum geht, eine Rohübersetzung zu bekommen, mit deren Hilfe man sich ein Bild machen kann, wovon der Text handelt, so können MÜ-Systeme bis zu 60000 Wörter pro Stunde übersetzen.

Was macht nun jemand, der gelegentlich einen Brief schreiben muß in einer Sprache, die er nicht kennt? Kann er seinen Brief auf dem PC schreiben, an ein MÜ-System abschicken und dann die Übersetzung mit elektronischer Post zurückbekommen? Solche Dienste werden heute schon angeboten (in Frankreich sogar mit Minitel). Wenn Sie aber die sprachlichen Schwierigkeiten bedenken, die wir im ersten Teil geschildert haben, so dürfte es klar sein, daß solche Übersetzungen auf keinen Fall perfekt sein können.

Unter den Nutzern und Firmen oder Büros, welche ein System wie Metal gewinnbringend einsetzen, gibt es aber auch noch Anwender, die einen oder zwei Übersetzer beschäftigen. Was können diese Benutzer heute machen, außer warten, bis die großen Systeme auf PC angeboten werden? Es gibt einen rasch wachsenden Markt für MAHT (Machine Aided Human Translation). Der Übersetzer wird in seiner Arbeit unterstützt durch maschinenlesbare Wörterbücher, Terminologiedatenbanken, Terminologiefunktionen, Notizblockfunktionen, Teilung des Bildschirms etc. Die computerunterstützte Übersetzung gehörte jedoch nicht zum Themenbereich des MT-Summit II.

Fazit

MÜ-Systeme liefern heute nur dann brauchbare Ergebnisse, wenn man die Anwendung auf bestimmte Textsorten und Fachgebiete einengt. Eine vollautomatische Übersetzung funktioniert nur bei ganz einfachen Texten. Selbst wenn man die Textsorte und das Fachgebiet eingeschränkt hat, ist in der Regel noch Pre- und Post-editing notwendig. Trotz dieser Einschränkungen ist eine Produktivitäts- und Qualitätssteigerung durch den Einsatz von MÜ-Systemen möglich. Der Bedarf an Übersetzungen ist schon jetzt sehr groß. Langfristig ist MÜ die einzige realistische Lösung.