Neuronales Netz unterstützt Textsystem

Computer können japanische Schriftzeichen bald deuten

09.02.1990

Während Textsysteme aller Leistungsklassen in der Welt der herkömmlichen Buchstaben-Alphabete längst alltägliche Standardinstrumente vieler schreibender Menschen sind, ist dies in Japan mit seinen komplexen Schriftzeichen noch ganz anders. Doch jetzt verspricht die Technik der Neuronalen Netze mit ihrer Fähigkeit zum Erkennen und Unterscheiden komplizierter Muster Abhilfe.

Bei Neuronalen Netzen hat man es bekanntlich mit Systemen zu tun, die eine Gruppierung zahlreicher sehr einfacher Prozessoren darstellen, die parallel arbeiten und die in etwa wie die Nervenzellen eines biologischen Gehirns miteinander verbunden sind. Dabei ist es übrigens gar nicht unbedingt nötig, so ein Neuronales Netz direkt aus einzelnen Chips zusammenzulöten, denn zumindest bis hinauf zu einer gewissen Komplexität kann man so ein Netz auch einfach als Programm darstellen, es also auf einem herkömmlichen, primär sequentiell arbeitenden Rechner simulieren.

Erprobung an den Homonymen

Forscher aus Kawasaki nahe Tokio haben diese Neuronalen Netze nun ganz speziell am Problem der häufig vorkommenden - und immer wieder Schwierigkeiten bereitenden - Homonyme des Japanischen erprobt. An Wörtern also, die sowohl durch gleiche Aussprache beziehungsweise gleichen Klang als auch durch die gleiche Lautschriftliche Fixierung beim Schreiben charakteristisch sind, die aber dennoch völlig verschiedene Begriffe bezeichnen.

Im Deutschen wären beispielsweise (der) Leiter und (die) Leiter oder auch (der) Tor und (das) Tor solche Homonyme, sieht man einmal vom jeweils unterschiedlichen Geschlecht ab.

Drei Alphabete stehen zur Verfügung

Um nun verstehen zu können, worin speziell der Nutzen der Neuronalen Netze liegen könnte, muß man sich zunächst in Erinnerung rufen, daß das geschriebene Japanisch drei verschiedene Alphabete umfaßt. Zwei bestehen aus je 46 phonetisch zu interpretierenden Zeichen und nennen sich Kana während das dritte mit seinen mehreren tausend einzelnen Zeichen ursprünglich aus China stammt und Kanji genannt wird.

Zwar können Japaner unter Verzicht auf Eleganz jedes beliebige Wort in Kana schreiben, das geschieht beispielsweise auch beim Verfassen von Telegrammen. Doch lassen diese Texte sich dann nur langsam lesen - was wiederum mit den vielen Homonymen zusammenhängt. Denn es dauert meist

eine gewisse Zeit, ehe man herausgefunden hat, ob ein bestimmtes Zeichen nun entweder "Manager" oder "Gefühl" oder gar selber "Schriftzeichen" bedeuten soll. Zumal manche der Kana-Zeichen bis zu zehn verschiedene Bedeutungen haben können, die in Kanji dann einfach durch jeweils ein anderes Zeichen dargestellt würden.

In dieser Situation hatten die Japaner bislang kaum eine andere Wahl, als für den gewöhnlichen Bürogebrauch Textsysteme zu entwickeln, bei denen die Tastatur nur Kana-Zeichen trägt. Sie arbeiten mit einer Programmierung, die immer dann, wenn eine neu eingetippte Gruppe von Kana-Zeichen gleich mehreren Kanji-Schriftzeichen entsprechen könnte alle aktuellen Kanji-Wahlmöglichkeiten auf dem Bildschirm anzeigt.

Der Schreibende trifft dann einfach seine Wahl und fährt nach dieser kurzen - von manchem Benutzer jedoch als höchst störend kritisierten - Unterbrechung im Text fort.

Zwar sind manche dieser Textsysteme so programmiert, daß sie bei wiederholtem Auftreten der gleichen Kana-Kombination sowie bei Duldung durch den Benutzer automatisch das soeben schon bewährte Kanji-Zeichen einsetzen, doch sehr viel weiter hat auch dies bislang nicht geholfen. Im Gegensatz dazu soll das experimentelle - und vorerst noch auf einem traditionellen 32-Bit-Rechner simulierte - Neuronale Netz viel raffinierter arbeiten. Es hat dazu 10 000 Wörter sowie Regeln über deren wechselseitige Beziehungen zueinander gespeichert. Und so kann es nun zu jeder Kana-Zeichengruppe nicht nur einfach die Liste der denkbaren Kanji-Entsprechungen anzeigen, sondern in Gestalt von Wahrscheinlichkeitswerten außerdem auch gleich sagen, welche dieser denkbaren Bedeutungen im aktuellen Kontext mit welcher Wahrscheinlichkeit wohl zutrifft.

Auf das Deutsche übertragen, würde dieses Netz also erkennen: Kam soeben erst das Wort "reiner" vor, so dürfte es sich beim folgenden "Tor" empfehlen, schon mal jene Bedeutung vorzuselektieren. Handelt es sich um einen dummen Menschen, den Eingang zu einem Hof oder einen Begriff aus dem Fußball.

Schon jetzt können Shigeru Oyanagi und sein Team vorführen, daß das System derartige und auch komplexere, von mehreren Parametern gesteuerte

Wortabhängigkeiten beziehungsweise -zusammenhänge mit guter Trefferquote vorhersagen kann. Doch wirklich hohe Leistungen und hohes Tempo versprechen sie sich erst von späteren Maschinen, die das Neuronale Netz dann nicht mehr bloß simulieren, sondern direkt in Gestalt von Schaltungen darstellen.

Daß so etwas denkbar ist, zeigen schon jetzt aktuelle Entwicklungen experimenteller Neuro-Chips mit, wie etwa ein Modell aus Japan, immerhin schon 576 Prozessoren. Wiewohl bei solchen Chips insbesondere die Frage der Unterbringung der zahlreichen Verbindungen von Prozessor zu Prozessor mit

steigender "Neuronen"-Zahl mehr und mehr Probleme aufzuwerfen beginnt.

150 000 Verbindungen auf einem Chip

Andere Neuronen-Spezialchips bringen beispielsweise je 64 Einbit-Prozessoren auf je einem Baustein unter oder, und zwar in kaskadierbar aneinanderreihbarer Ausführung, je sechs Neuronen pro Chip. Auch wurden schon Neuro-Schaltungen bekannt, die direkt auf dem Chip 150 000 nervenähnliche Verbindungen unterbringen. Und weitere Bausteine stellen geschickte Kombinationen analoger und digitaler Schaltungen mit 32 künstlichen Neuronen dar.

Stark auf analoge statt auf digitale Technik stützt sich ferner ein Chip mit intern 64 Neuronen sowie nochmals je gleichviel Ein- und Ausgängen. Er soll pro Sekunde 100 000 Verbindungsschaltungen sowie außerdem auch Rückkopplungssignale bearbeiten können.

Aktuelles Versuchssystem macht noch viel Aufwand

Das aktuelle Versuchssystem in Kawasaki muß derzeit noch mit viel Aufwand vorbereitet werden, wie man Berichten über diese Experimente entnehmen kann. Denn es bedient sich bei seiner Arbeit einer Datenbank, die etwa 500 Seiten Text äquivalent sein soll und die die wechselseitigen Relationen zwischen den einzelnen Wörtern speichert und darstellt. Wobei jene Relationen von Benutzer zu Benutzer - also etwa zwischen einem Arzt und einem Kaufmann - übrigens auch noch stark variieren können.

Herkömmliche Textsysteme für Japaner sind derzeit selbst ohne Neuronen-Intelligenz schon ein boomendes Geschäft wie aktuelle Statistiken und Prognosen ausweisen. Von diesen Maschinen sollen derzeit nämlich pro Jahr an die 2,7 Millionen Stück abgesetzt werden, was einem Zuwachs um rund ein Achtel entsprechen würde. Das Marktvolumen in Yen soll sogar ein Drittel höher als jenes vor einem Jahr liegen und rund 32 Milliarden erreichen - also rund 370 Millionen Mark. +