BONN (CW) - Ein Programm zur automatischen Übersetzung von Texten ins Deutsche wurde innerhalb eines neunmonatigen Forschungsprojektes am Regionalen Rechenzentrum (RHRZ) der Universität Bonn entwickelt. Die Analyse der Quellsprache Englisch lag bei dem Programmpaket Systran (System Translation) vor. Die Aufgabe bestand in einer Synthese von Deutsch als Zielsprache, die wegen ihrer Übertragbarkeit in andere natürliche Zielsprachen möglichst allgemein gehalten werden sollte. Die Xerox Corp. beabsichtigt, das Programm demnächst anzuwenden.
Das von Peter Toma in den USA entwickelte Programmpaket Systran wurde von den vier Mitarbeitern des Projektes ausgewählt, weil es als einziges vollständig zur Verfügung stand. Unverändert übernommen wurde die Analyse der englischen Sprache ebenso wie das Grundsystem, was zur Folge hatte, daß in der deutschen Synthese - der Zusammensetzung der Texte in deutscher Sprache nicht nach dem Prinzip "Wort für Wort", sondern so, wie es Grammatik und Gebrauch der natürlichen Sprache Deutsch verlangen - zur Folge hatte.
In Assembler programmiert wurde beispielsweise ein Programm zur Übersetzung von Präpositionen - so mußte die wahrscheinliche Bedeutung aus dem Kontext herausgezogen werden, der nachfolgende Kasus war zu bestimmen, außerdem mußte entschieden werden, ob es sich - bei "of" zum Beispiel - um den Anzeiger für "Genitiv" handelt oder ob das Wort im Englischen eine selbständige Präposition darstellt. Außerdem war die Morphologie - die Verbformen - in Form eines Programmes zu erarbeiten. Die deutsche Satzkonstruktion, die in Quell- und Zielsprache voneinander abweichen, war zu analysieren, die unterschiedliche Verwendung von Aktiv und Passiv mußte in Algorithmen festgelegt werden. Nicht zuletzt wurde ein Wörterbuch erstellt, in dem alle Worte erfaßt und für die Übersetzung mit ihren Bestimmungsfaktoren wie Fall, Wortstellung, Verbform, wahrscheinliche Bedeutung zur Verfügung stehen.
"Die Hauptschwierigkeit", so erklärte Susanne Volland als eine der Mitarbeiterinnen an dem Projekt, "bestand darin, daß es keinen Grammatik-Duden in algorithmischer Form gibt." Anhaltspunkte konnten den Merkregeln und "Eselsbrücken" aus Lehrbüchern für amerikanische Schüler entnommen werden.
Die Ergebnisse bezeichnet Frau Volland als "durchaus befriedigend". Dem jetzt vorliegenden Arbeitsbericht "Synthese der deutschen Sprache mit dem Systran Verfahren" nach benötigen die Programme maximal vier KB Hauptspeicher. Darin sind allein zwei KB für die Tabellen zur deutschen Flexion enthalten. Vom gesamten Übersetzungslauf nimmt die deutsche Synthese höchstens eine Viertel Sekunde CPU-Zeit in Anspruch. Der Test erfolgte auf einer IBM 370/168.
Informationen RHRZ, Herr Dr. Jasper, Wegelerstr. 6, 5300 Bonn 1, Tel.: 0 22 21/73-34 48