Universal Networking Language: mehr als ein Übersetzungsprogramm

Forscher kämpfen gegen Sprachbarrieren im Web

30.07.1999
Noch immer gilt das weltweite Sprachenwirrwarr als großes Hemmnis für internationale Web-Geschäfte. Mit der Formel UNL (Universal Networking Language) suchen Sprachwissenschaftler im Auftrag der Vereinten Nationen seit 1996 nach einem Esperanto des Internet. Rüdiger Vossberg* beschreibt das Modell und den Entwicklungsstand des Forschungsprojekts.

Endlich kann sich die französische Vertriebsmitarbeiterin mit den Kollegen in Japan in ihrer Muttersprache austauschen. Auch der amerikanische Online-Shopper hat nun die Möglichkeit, im Web-Schwarzwald die geliebte Kuckucksuhr zu bestellen, ohne an deutschen Produktbeschreibungen verzweifeln zu müssen. Und der thailändische Historiker liest mongolische Arbeiten über Dschingis-Khan in seiner Landessprache. Schöne neue Welt - oder reine Zukunftsmusik? Von beidem etwas.

Denn die Sprachbarrieren beim Informationsaustausch über das Internet sollen mit Hilfe einer neuen Computersprache überwunden werden: Universal Networking Language (UNL) heißt das ambitionierte Projekt, an dem seit 1996 weltweit mehr als 120 Sprachwissenschaftler und Computerexperten in über 17 Forschungseinrichtungen unter der Federführung der Universität der Vereinten Nationen (UNU) in Tokio basteln. Bis zum Jahr 2000 soll die erste Erprobungsphase abgeschlossen sein. "UNL muß nicht erlernt werden", erklärt der Leiter des deutschen Forschungsteams am Institut für Angewandte Informationsforschung (IAI) an der Universität des Saarlandes, Jörg Schütz. "Es ist vielmehr die einheitliche Basis, um Texte in einer sprachunabhängigen Form zu codieren und zu speichern."

Der Benutzer gibt den Text nach wie vor in seiner Muttersprache in einen Editor ein. UNL kann in HTML oder auch in XML, die vorherrschenden Seitenbeschreibungssprachen des Web, eingebettet werden. Der Editor verfügt über einen auch Analysemodul genannten Enkonverter, der den Text mit Hilfe eines Generators automatisch in UNL überträgt. Das Generatormodul wird vom Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Saarbrücken entwickelt. Liegt ein Text einmal in UNL vor, läßt er sich in alle Sprachen, für die es Umwandlungsprogramme (Dekonverter) gibt, übersetzen. Sie werden als Plug-ins für die Web-Browser konzipiert. Sekundenschnell soll dann dem Anwender eine in UNL gespeicherte Internet-Seite in seiner Muttersprache auf den Bildschirm gezaubert werden.

Aber nicht nur Texte auf Web-Seiten, sondern jegliche Art der schriftlichen digitalen Kommunikation (E-Mail oder Chat) lassen sich in UNL verfassen. Bislang gibt es neben den offiziellen Sprachen der Vereinten Nationen (Arabisch, Chinesisch, Englisch, Französisch, Russisch und Spanisch) auch Datenbanken für Deutsch, Hindi, Italienisch, Indonesisch, Japanisch, Lettisch, Mongolisch, Portugiesisch, Suaheli und Thai.

Bis 2006 sollen alle 150 Sprachen der UNO-Mitgliedstaaten durch UNL in die jeweils anderen übersetzt werden können. Dann spräche das "globale Dorf" endlich eine gemeinsame Sprache.

Das UNL-Lexikon besteht unter anderem aus Universalwörtern: Begriffe, deren Bedeutung auch in jeder anderen natürlichen Sprache existieren. Wenn es für "Pinsel" in Suaheli keinen entsprechenden Begriff gäbe, müßte für die UNL-Wissensbank eine Umschreibung gefunden werden. Nicht-konvertierbare Wörter, wie Eigennamen, werden ohne Übersetzungsversuch übernommen. Der aktuelle UNL-Wortschatz besteht aus etwa 300000 Universalwörtern, die zentral an der UNU in Tokio erfaßt werden. Das Wörterbuch ist aber keine endlose Liste von Begriffen. Attribute beschreiben zusätzliche Eigenschaften.

So registrieren die UNL-Bausteine bei der Eingabe von "Preßluftbohrer" den Begriff "Bohrer" zusammen mit dem Attribut "Preßluft". Ein UNL-Englisch-Dekonverter würde dann das passende "pneumatic drill" erzeugen. Herkömmliche Übersetzungsprogramme haben besonders an Doppeldeutigkeiten zu knabbern. Typisches Beispiel: Montage. Solche Hürden meistert UNL, sagt IAI-Forscher Schütz. "UNL ist nicht mit einer klassischen Übersetzung vergleichbar." Es wird nicht stur Wort für Wort übersetzt, sondern es werden ganze Sätze analysiert. Die Software erkennt automatisch die grammatikalischen Zusammenhänge und entschlüsselt die Kombinationen der einzelnen Wörter und ihre Endungen.

Wurde ein Satz auf diese Weise in die sprachlichen Fragmente zerlegt, erzeugt der Enkonverter den UNL-Code (siehe Kasten "UNL-Kostprobe"). UNL erkennt, ob es sich bei "Montage" um die entsprechenden Wochentage handelt, oder etwa um das Zusammensetzen einer Maschine. UNL soll zunächst technische Texte wie Softwarehandbücher oder Reparaturanleitungen sowie wissenschaftliche Veröffentlichungen übersetzen. Sprichwörter oder Redewendungen "versteht" die neue Computersprache (noch) nicht. "Des Pudels Kern" oder "der Busen der Natur" bleiben UNL ein Rätsel. Darum eignet sich die Sprache vorerst nicht für literarische oder philosophische Werke. Für Unternehmen allerdings, die auf allzu blumige Formulierungen verzichten, könnte UNL eine interessante Möglichkeit sein, um Kunden oder über die Welt verstreute Mitarbeiter individuell anzusprechen.

So sieht es auch das in Deutschland federführende IAI. Neben E-Mail und Informationssuche nennen die Forscher elektronische Dienstleistungen und den elektronischen Handel (E-Commerce) als Anwendungsgebiete des Web-Esperanto. Das Projekt ist auf zehn Jahre angelegt und geht noch in diesem Jahr in den Testbetrieb. Es handelt sich dabei nach Aussagen der Forscher nicht um eine weitere Maschinensprache, sondern es wird ein "interaktiver Mensch-Maschine-Mechanismus" benutzt. Gibt ein Autor einen Text in seiner Muttersprache in den Editor ein, um ihn dann vom Enkonverter übersetzen zu lassen, so kann er eine Rückübersetzung durch den Dekonverter vornehmen, um die Qualität der Übersetzung zu prüfen. Falls Fehler auftauchen, läßt sich der Text entsprechend verändern und neu eingeben.

Liegt er dann einmal in UNL vor, kann er in alle Sprachen, für die es Umwandlungsprogramme gibt, übersetzt werden. Er ist quasi statisch und muß von einem Spracherkennungsprogramm nicht mehr neu in Einzelteile und Kontext zerlegt werden.Weitere Infos unter www.iai.uni-sb.de/UNL/ oder www.unl.ias.unu.edu/eng/ unlhp-e.html.

UNL-Kostprobe

Der UNL-Code ist eine an das Englische angelehnte Kunstsprache. Ein Beispiel: "Fast alle Leder sind chromgegerbt" lautet in UNL:

[S]aoj(tan(icl>characteristic).present,leather (icl>material))mod(tan(icl>characteristic). present,chrome(icl>material))qua(leather (icl>material),all(icl>quantity).possibility)[/S]

Die Relation "aoj" führt ein Objekt ein, über das eine Aussage gemacht wird - in diesem Fall das Gerben von Leder. "mod" (Chromgerbung) and "qua" (Anzahl) geben einschränkende Informationen zu diesem Objekt an.

*Rüdiger Vossberg ist freier Journalist in Berlin..