Elektronische Dolmetscher holen auf

Simon verantwortet als Program Manager Executive Education die Geschäftsentwicklung und die Inhalte des IDG-Weiterbildungsangebots an der Schnittstelle von Business und IT. Zuvor war er rund zehn Jahre lang als (leitender) Redakteur für die Computerwoche tätig und betreute alle Themen rund um IT-Sicherheit, Risiko-Management, Compliance und Datenschutz.
Der menschliche Traum von der Universalsprache ist fast so alt wie der Mensch selbst. Mit statistischen maschinellen Übersetzungen scheint er greifbar zu werden.

Es gibt kaum einen Bereich der Internet-Services, in dem Google seine Finger nicht im Spiel hat. Ein bisher nicht so richtig wahrgenommener Clou der Amerikaner ist der "Google Translator", mit dem sich Texte und ganze Web-Seiten in zahlreiche Fremdsprachen übersetzen lassen. Altbekannt ist diese Idee, doch Google wäre bestimmt nicht eingestiegen, wenn es sich nicht etwas mehr davon versprechen würde. Richtig interessant nämlich ist die Technik, die dahintersteckt: "Statistische maschinelle Übersetzung" (statistische MÜ) heißt sie und wird von den Kaliforniern als einem der ersten großen Anbieter am Markt eingesetzt. Auch wenn sie noch nicht ausgereift ist: Langfristig könnte die Technik menschliche Übersetzer zumindest für einfache Aufgaben ablösen.

Das Prinzip der statistischen MÜ ist ganz im Sinne der Google-Philosophie, mit der die Suchmaschine Ende der 90er Jahre ihren Siegeszug antrat: Je häufiger eine Satzkonstruktion durch einen Menschen in einer bestimmten Art und Weise übersetzt wurde, desto größer ist die Wahrscheinlichkeit, dass sie für eine standardisierte, computergenerierte Übersetzung in Frage kommt. Bisher scheitern maschinelle Techniken vor allem an der komplexen Semantik in der menschlichen Sprache - eine annähernd große Flexibilität bei Wortbedeutungen und Satzbau könnten Computer nur durch langwierige Lernprozesse erreichen.

Politik hilft beim Datensammeln

Forscher und Unternehmen arbeiten daran, Datenbanken aufzubauen, in die Originaltexte verknüpft mit von Menschen geschaffenen Übersetzungen in allen möglichen Sprachen eingespeist werden. Daraus soll der Rechner immer präziser ermitteln können, wie er etwas am besten übersetzt, damit der Nutzer am Ende ein verlässliches Ergebnis erhält. Google baut dabei auf den schier unerschöpflichen Fundus von Dokumenten im Web. Zunächst werden vorrangig Meldungen der Vereinten Nationen und der Europäischen Union, die mehrsprachig veröffentlicht sind, untereinander abgeglichen. Millionen von Wörtern und Satzkonstruktionen besonders in Arabisch, Chinesisch und Russisch wurden auf diesem Weg bereits verarbeitet. Die wachsende Datenmenge hilft auch dem Kernprodukt Suchmaschine: Sie kann besser erkennen, ob Texte, die in verschiedenen Sprachen vorliegen, den gleichen Inhalt aufweisen, und Trefferlisten wesentlich spezifischer sortieren.

Um sein utopisch anmutendes Vorhaben vom universellen Übersetzer zu realisieren, beschäftigt Google nur die Besten ihres Fachs: Leiter des Translator-Projekts ist Franz Josef Och, der an der RWTH Aachen mit der Weiterentwicklung der von IBM-Forscher Peter Brown 1990 in die Welt gesetzten MÜ-Variante promovierte. An der University of Southern California in Los Angeles machte er sich danach einen Namen, als er damit begann, Bibeltexte vielsprachig abzutippen, um eine verlässliche Grundlage für seine weiteren Forschungen zu schaffen. Auch dank zahlreicher Buchveröffentlichungen gehört Och 34-jährig bereits zu den Koryphäen auf dem Gebiet der maschinellen Übersetzungen. Der selbstbewusste Wissenschaftler sieht in seinem Projekt gerade im Übersetzungsmodus Arabisch-Englisch einen kräftigen Schritt nach vorne und betont seinen Erfolg: "Leute, die lange im Geschäft sind, sind von unseren Ergebnissen begeistert und sehen darin den Durchbruch", berichtete Och in einem Interview mit der Nachrichtenagentur Reuters.

Universitäten treiben Übersetzungen voran

Mit ihrem Vorstoß stehen Och und Google aber längst nicht alleine da: Forschergruppen rund um den Globus arbeiten in größtenteils universitären Projekten daran, die Entwicklung der statistischen Methoden voranzubringen. Finanziert werden die wissenschaftlichen Untersuchungen oft durch staatliche und private Förderer, die gezieltes Interesse an verbesserten Übersetzungen in bestimmten Sprachkombinationen besitzen. Ganz vorne mit dabei ist das US-Verteidigungsministerium, das sich von maschineller Übersetzung vor allem schnellere und bessere Kommunikationsmöglichkeiten in internationalen Beziehungen erwartet und sein Augenmerk mit dem Projekt "Agile" derzeit besonders auf die arabisch- und chinesischsprachigen Räume richtet. Der Forschungsvorsprung für diese Sprachen ist groß, die Übersetzungsergebnisse sind weit fortgeschritten.

Philipp Köhn lehrt und forscht an der Universität von Edinburgh im Bereich der statistischen maschinellen Übersetzung. Er erwartet von der verbesserten Technik mehr Nutzen im Alltag, sieht menschliche Dolmetscher aber nicht gefährdet.
Philipp Köhn lehrt und forscht an der Universität von Edinburgh im Bereich der statistischen maschinellen Übersetzung. Er erwartet von der verbesserten Technik mehr Nutzen im Alltag, sieht menschliche Dolmetscher aber nicht gefährdet.
Foto: Philipp Koehn

An Agile sind unter anderem die Cambridge University, das Internationale Sprachenzentrum der Universität Innsbruck (ISI), das Massachusetts Institute of Technology (MIT), BBN Technologies und die Universität von Edinburgh beteiligt. Auch in Schottland lenkt ein Deutscher die Geschicke der Sprachwissenschaftler: Philipp Köhn war genau wie Franz Och an der University of Southern California tätig und hat dort seine Doktorarbeit verfasst. Seitdem kümmert sich Köhn in Edinburgh um neue Modelle der maschinellen Übersetzung.

Neben Agile betreibt seine Forschergruppe das bis 2008 ausgelegte dreijährige EU-finanzierte Projekt "Euromatrix". Studienziel ist die Weiterentwicklung maschineller Übersetzungen aller EU-Sprachen. Während die gesamte Koordination in Schottland stattfindet, sind auch die Universitäten von Saarbrücken und Prag beteiligt. Darüber hinaus werden die Unternehmen Linear B, Group Technologies und Morphologic in die Arbeit eingebunden.

Die Abhängigkeit der statistischen maschinellen Übersetzung von der englischen Sprache demonstrieren die Bleu-Messwerte des EU-Forschungsprojekts Euromatrix.
Die Abhängigkeit der statistischen maschinellen Übersetzung von der englischen Sprache demonstrieren die Bleu-Messwerte des EU-Forschungsprojekts Euromatrix.

Um das Projekt fortlaufend zu evaluieren, kommt das 2002 von IBM entwickelte Messverfahren Bleu (Bilingual Evaluation Understudy) zum Einsatz, das mittlerweile standardisiert wurde und auch von Google zur Qualitätskontrolle verwendet wird. Bleu gleicht die maschinellen Ergebnisse mit den Referenztexten relativ zuverlässig auf identische Übersetzungen ab. Daraus ermittelt das System einen Wert, der über die Qualität der Übersetzung Aufschluss gibt.

Inhalt und Quelle beeinflussen die Übersetzungs-Ergebnisse

Die aktuellen Zwischenstände der Euromatrix lassen sich im Web verfolgen. Alle bisher erzielten Bleu-Werte machen deutlich, wie stark die statistische MÜ noch von der englischen Sprache und von dem Textfundus abhängt. "Technische und politische Texte können wir völlig problemlos übersetzen lassen – von Sportberichten und Kochrezepten lassen wir dagegen lieber die Finger", sagt Köhn und verweist damit auf die starke thematische Zentrierung frei verfügbarer Texte aus dem Fundus von EU oder UNO. Abhilfe schaffen könnten da wohl nur Verlage, die Publikationen in sehr vielen Sprachen vorliegen haben. Die dürfen ihre Texte aus Urheberrechtsgründen aber oft nicht herausgeben. Oft wollten sie es aber auch gar nicht, weil Universitäten nicht die finanziellen Möglichkeiten zum Erwerb der Texte besäßen, zeigt sich der Wissenschaftler ob der geringen Aussicht auf massentauglichere Inhalte realistisch.

Beispiel aus der Euromatrix: In der Kombination Deutsch-Englisch entspricht die Übersetzung in weiten Teilen bereits der eines professionellen Dolmetschers.
Beispiel aus der Euromatrix: In der Kombination Deutsch-Englisch entspricht die Übersetzung in weiten Teilen bereits der eines professionellen Dolmetschers.

Ein weiteres großes Problem ist die Mehrdeutigkeit vieler Worte, die in der Fachsprache als Homonyme bezeichnet werden. Deutsche Wörter wie "Bank", "Steuer", "Kiefer", "Reif", "Leiter", "Blatt" oder "Ehe" können erst im inhaltlichen Zusammenhang korrekt übersetzt werden. Gleiches gilt für das Englische bei Wörtern wie "arms", "right", "left", "polish" oder "saw". Gerade auch in ostasiatischen Sprachen tritt dieses Phänomen häufig auf. Maschinellen Übersetzern den richtigen Sinnzusammenhang zu erschließen stellt für die Wissenschaft eine schwierige Herausforderung dar. Für Köhn steht fest, dass automatisierte Techniken den menschlichen Dolmetscher auf absehbare Zeit nicht werden ersetzen können. Wichtiger sei die Frage nach der Nützlichkeit der Technik, nicht nach ihrer Perfektionierung: Für die grobe Sichtung von Dokumenten reiche der heutige Forschungsstand vollkommen aus, meint der Wissenschaftler. Auch deshalb steckten besonders große US-Behörden Unsummen in die Forschung, um ihren Fundus an gedrucktem Wissen effizient auswerten zu können.

Maschinelle Übersetzungen bergen Risiken, aber auch Chancen

Die Subventionierung der Forschung könnte sich über kurz oder lang auch in der freien Wirtschaft auszahlen: In 80 Prozent aller internationalen Unternehmen führen durch Menschen verursachte Übersetzungsfehler zu Einnahmeverlusten, verzögern Produktstarts oder ziehen gar Geldbußen wegen Verstößen gegen geltendes Recht nach sich. Zu diesem Ergebnis kommt eine aktuelle Umfrage im Auftrag von SDL International, einem führenden Anbieter von Technologielösungen im Bereich globales Informations-Management. Maschinelle Übersetzungen, die zuverlässige und schnelle Resultate liefern, könnten diesen Missstand teilweise beheben. Allerdings ließe sich laut SDL schon durch eine stringentere Organisation der Übersetzungsaufgaben in einem Unternehmen viel vom bestehenden Durcheinander bereinigen. Häufig ist nicht einmal klar, welche Abteilungen welches Büro mit welcher Übersetzung beauftragt.

Nicht wirklich überzeugend: Maschinelle Übersetzung ins Deutsche im Microsoft Knowledge Center
Nicht wirklich überzeugend: Maschinelle Übersetzung ins Deutsche im Microsoft Knowledge Center

Heute bleibt der Einsatz maschineller Techniken meist noch auf die Übersetzung von einfachen oder selten abgerufenen Inhalten beschränkt. Doch schon so können Kosten reduziert werden. Microsoft beispielsweise lässt viele nicht englischsprachige Internet-Hilfsseiten seiner "Knowledge Base" maschinell erstellen - gerade zu selten auftauchenden Fragen, die Windows- und Office-Produkte betreffen, findet der Anwender häufig ausschließlich computergenerierte Übersetzungen der Originaltexte. Dass die Ergebnisse dabei nicht immer hundertprozentig zuverlässig sind, wird durch einen Warnhinweis stets angezeigt. Das ist auch bitter nötig, denn innovative deutsche Satzschöpfungen wie die folgende auf einer Hilfeseite zu einer Fehlermeldung von Windows Server 2003 sind keine Seltenheit: "Clusterdienst wird heruntergefahren, da das Mitgliedschaft-Modul ein Mitgliedschaft-Ereignis entdeckte während versuchen dem Server-Cluster beizutreten. Das Herunterfahren ist die standardmäßige Reaktion auf dieser Art von Ereignis. Cluster wird neu pro den Wiederherstellungsmaßnahmen dem Dienstmanager gestartet."

Mit der Warnung gehen die Redmonder auch möglichen juristischen Problemen aus dem Weg: Hinter der Rechtsverbindlichkeit maschineller Übersetzungen steht im Gegensatz zur eindeutig geregelten Haftbarkeit menschlicher Dolmetscher ein großes Fragezeichen. Bei wichtigen Sachverhalten müsse ein menschlicher Dolmetscher immer noch zusätzlich absichern - niemals dürfe man sich allein auf Ergebnisse aus dem Rechner verlassen, warnt Philipp Köhn vor vorschnellen Personaleinsparungen. Aufgrund der ermutigenden Forschungsergebnisse der vergangenen Jahre erhofft er sich langfristig dennoch großen Nutzen im Alltag.

Dolmetscher geben der Technik nur wenig Aussicht auf Erfolg

Doch wie sehen professionelle Übersetzer die Situation? Stellt für sie die technische Entwicklung eine Gefahr dar? "Maschinelle Übersetzungen sind für uns nicht zu gebrauchen", sagt Barbara Wohanka vom Übersetzungsbüro "Wohanka & Kollegen" aus Geisenhausen bei Landshut. Die meisten Sprachdienstleister setzten dennoch bereits seit langem Datenbanken ein, in die alle erledigten Übersetzungen eingearbeitet werden – so ergebe sich mit der Zeit ein hilfreicher Fundus. Dieses statistische Prinzip könne aber niemals menschlich erzeugte Texte ersetzen, sondern sei nur eine kleine Arbeitserleichterung, so Wohanka. Sie beklagt vor allem die nach wie vor verbreitete Wort-für-Wort-Übersetzung der Rechner. Und die führe nur zu guten Ergebnissen, wenn der Computer mit grammatisch an die Zielsprache angepassten Texten gefüttert werde (siehe dazu auch "Die Sprache passt nur bedingt in ein elektronisches Korsett"). Wesentlich effizienter sei es deshalb, gleich alles selbst zu übersetzen, äußert die Übersetzerin ihre Bedenken gegenüber den Chancen maschineller Techniken auf dem Markt der professionellen Dolmetscher. Google denkt da sicher anders.

Vier Übersetzungs-Tools im Vergleich

Was leisten maschinelle Übersetzer heute schon? Wir haben die Probe aufs Exempel gemacht und uns vier Tools angeschaut. Das Ergebnis ist eindeutig: Sie sind als Helferlein für schnelle Einzelwort-Übersetzungen und das grobe Verständnis fremdsprachiger Webseiten ganz nett. Von ihrem Einsatz bei langen Sätzen und komplexen Texten ist aber dringend abzuraten.

Web-Dolmetscher überzeugen bisher nicht

Dutzende verschiedene Übersetzungs-Hilfen im Internet wollen dem Anwender das Arbeiten erleichtern. Die COMPUTERWOCHE-Redaktion hat vier Tools verglichen.

Einer der bekanntesten und ältesten Übersetzer ist Altavista Babelfish. Er unterstützt mehr Sprachen als viele andere – darunter auch Chinesisch und Japanisch. Optional lassen sich ganze Webseiten oder einzeln eingegeben Worte und Sätze übersetzen. Bei komplexen Konstruktionen kann Babelfish aber keineswegs überzeugen.

Ähnlich ergeht es dem Free Online Translator, der fast identisch aufgebaut ist. Auffällig ist, dass der Wort-für-Wort-Übersetzer auf einem leicht abweichenden Wortschatz aufbaut, da sich die Übersetzungen in Nuancen unterscheiden. Auch dieses Tool ist nur für die schnelle Wort-Abfrage geeignet. Zudem sorgt die Website mit ihrem unübersichtlichem Design und vielen Werbeanzeigen für unnötigen Ärger.

Ein wenig anders funktioniert das beliebte LEO Online Dictionary. Es arbeitet wie ein Wörterbuch und kann nur zur Abfrage von einzelnen Worten und Redewendungen verwendet werden. Hier liefert es für die Sprachen Englisch, Spanisch, Französisch und Deutsch aber sehr zuverlässige Ergebnisse und kennt auch Ausdrücke, die viele Konkurrenzprodukte gar nicht übersetzen können. Besonders hervorzuheben: Mit Hilfe eines Plug-Ins ist LEO im Browser immer als Seitenleiste verfügbar.

Der Google Translator bzw. die Google Language Tools gehen einen noch anderen Weg. Die angewandten statistischen Prinzipien bei der Übersetzung sind bisher aber nicht erkennbar. Die Übersetzungsergebnisse unterscheiden sich noch nicht von denen anderer Tools. Positiv aber sind die übersichtliche Benutzerführung und das breite Angebot an unterstützten Sprachen.