Wortschatz ist nicht immer ausschlaggebendes Kriterium

Zurückhaltung auf dem Markt für Spracherkennungs-Systeme

10.11.1989

MÜNCHEN (sch) - Auf dem Markt für Sprachcomputer gibt es derzeit viele stumme Fische. Die Hersteller warten - sofern sie nicht mehr oder weniger erfolgreich in der Nische Worterkennung agieren - vor allem auf Chips mit mehr Rechenleistung. Vergleichsweise reger sind indes die Forschungs-Aktivitäten.

Eine jüngste Erfolgsmeldung im Bereich der elektronischen Sprachverarbeitung stammt von AEG. Das Frankfurter Unternehmen schloß jetzt eines der ersten Projekte, das überhaupt im Rahmen des EG-Forschungsprogramms Esprit bearbeitet wurde und sich eben mit dem Hörvermögen von Rechnern beschäftigte, ab.

In fünfjähriger Arbeit entstand ein "treffsicheres" Echtzeit-System: Die Rate der richtig erkannten Begriffe soll, große Vokabularien vorausgesetzt, bei 96 Prozent und der richtig verstandenen Sätze bei etwa 80 Prozent liegen.

Nicht abgehackte Einzelworterkennung

Beim SIP-Projekt für Einzelworterkennung (SIP: Advanced Algorithms and Architectures for Speech and Image Prosessing) arbeiteten Partner aus vier EG-Ländern zusammen. Neben der AEG waren Forscher des italienischen Cselt-Instituts, der Technischen Universität Turin, des französischen Thomson-Konzern, der Universität Straßburg und des griechischen Unternehmens Hitec mit von der Partie.

Ein anderes interessantes Ergebnis erzielten Sprachverarbeitungs-Experten im Research Center der IBM in Yorktown Heights. Das hier realisierte System auf der Basis eines Minirechners versteht sich auf insgesamt 20 000 Begriffe, die in nicht-abgehackter Sprechweise "aufgesagt werden können. Die heute auf dem Markt befindlichen und zum Teil sprecherunabhängigen Lösungen - so von Dragon Systems und Kurzweil - bewältigen immerhin schon 10 000 Wörter - allerdings nicht ohne eingelegte Pausen. Die jeweiligen Anlagen sind zum Teil auch darauf zugeschnitten, anhand von einzelnen Stichworten bestimmte stereotype Sätze beziehungsweise Satzformen zu generieren.

Verarbeitung von Fließtexten

Bei langfristigen Forschungsansätzen steht derzeit meistens die sprecherunabhängige Fließtext-Erkennung im Vordergrund. Führend auf diesem Gebiet sind die Vereinigten Staaten. Zu den erwähnenswerten Projekten zählen das vom Militär gesponserte Darpa-Vorhaben sowie entsprechende oder ähnliche Aktivitäten an der Carnegie Mellon University (CMU) in Pittsburgh, dem Massachusetts Institute of Technology (MIT) und von Bolt Beranek & Newman, Massachusetts.

Neben der Rechner-/Maschine-Kommunikation spielt das Telefon bei der elektronischen Sprachverarbeitung eine große Rolle. Hervorzuheben ist hier beispielsweise eine Zusammenarbeit zwischen dem japanischen Forschungsinstitut ATR und der CMU, die sich englisch-japanische Simultan-Übersetzungen via Voice-Mail zum Ziel gesetzt hat.

In Europa gibt es neben dem eingangs erwähnten eine Reihe weiterer Esprit-Projekte, so die Sundial-Initiative ("dial" steht für Dialog) des italienischen Cselt-Instituts aus Turin, von Logica aus Großbritannien, des Münchner Elektro- und Elektronik-Konzerns Siemens und dem französischen Softwarehauses Cap Société Innovation. Die angestrebten Anwendungen per Telefondialog: Flugreservation und Hotelreservierung.

Als weitere Aktivität ist das vom Bundesforschungsministerium (BMFT) geförderte Spicos zu nennen, dessen Bezeichnung für die drei beteiligten Unternehmen Siemens, Philips und IPO (holländisches Hochschulinstitut) sowie für die anvisierte Kommunikationsform, nämlich "contintious speech" (cos) steht. Besonderen Wert legten die Spicos-Tüftler darauf, einen Dialog mit Gedächtnis zu realisieren: Ein einmal abgelaufener Vorgang, das heißt zum Beispiel ein Frage-Antwort-Spiel läßt sich mitspeichern und reaktivieren. Das zugrunde gelegte Vokabular umfaßte in der ersten Projekt-Stufe ungefähr 1000 Begriffe und wurde später für die Verbesserung der Dialog-Möglichkeiten nur geringfügig erhöht.

Das Hauptaugenmerk richtete sich nicht auf einen größeren Wortschatz, sondern auf die Beherrschung von Linguistik sowie Semantik.

Derzeitige Überlegungen sehen nun vor, bestehende Übersetzungs-Systeme wie Metall von Siemens und Rosetta von Philips, oder aber ein "Information Retrieval Konzept" zur Datenbank-Abfrage von Patenten, ebenfalls von Siemens, für die Sprachverarbeitung zugänglich zu machen. Letzteres soll einmal bis zu 20 000 Begriffen fließend und sprecheradaptiv beherrschen.

Ebenfalls in Sachen Sprachverarbeitung engagiert ist das Fraunhofer Institut in Stuttgart Am dortigen Institut für Arbeitswirtschaft und Organiastion "blüht und gedeiht" eine Demo-Anlage, die 300 Wörter kontinuierlich gesprochen und sprecherunabhängig bewältigen kann. Das Abfragesystem, genannt Cosima, ist nach Angaben des stellvertretenden Instituts-Leiters, Jakob Hoepelman, robust gebaut und aufgrund des eingegrenzten Such- sowie Fragebereichs unempfindlich gegenüber grammatikalischen Ungereimtheiten. Cosima kann unter anderem dafür genutzt werden, sich Infos über Konstruktionszeichnungen abzurufen.

Auf die Konfiguration aufgesetzt wurden inzwischen eine Informations- und eine Dialog-Komponente Dadurch "reagiert" Cosima nun auch auf verschiedene Betonungen in einer Fragestellung und gibt je nach geäußerter Priorität die entsprechende Antwort.

Fehlerfreie Funktion als wesentliches Ziel

Seit einem dreiviertel Jahr "mischt" das Stuttgarter Institut zudem bei dem Esprit-Projekt Sunstar "mit", das sich marktakzeptable Entwicklungen im Bereich begrenzter natürlichsprachlicher Systeme auf seine Fahnen geschrieben hat. Die angepeilten Wortschätze sind klein: eindeutig wird hier der Nachdruck auf eine absolut fehlerfreie Funktionsweise im Bereich Voice-Mail gelegt. Hoepelman: "Die erste Anwendung geht wirklich nicht über die einfachsten Sachen hinaus, die man auch mit dem Telefon machen kann".

Eine große Herausforderung auf dem Gebiet der computergestützten Sprachverarbeitung ergibt sich aus dem Umstand, daß der Mensch eigentlich nicht Wörter ausspricht, sondern Laute ohne Pausen aneinander reiht.

Ein anderes Problem resultiert aus der Verwechselbarkeit der Sprache und den daraus leicht entstehenden Mißverständnissen. Daher erfordern die bisher erhältlichen Systeme oft einen verhältnismäßig hohen Lernaufwand. Dies mag ein Grund dafür sein, daß der Markt bisher nicht richtig angekurbelt werden konnte.

Die Anbieter warten vielfach aber auch darauf, daß die Forscher mit der Fließtext-Erkennung besser "zu Rande kommen" und lassen gerne anderen Firmen den Vortritt. Das eine oder andere auf hörende Computer spezialisierte Unternehmen soll nach Aussagen eines Branchenkenners seine Anlage sogar wieder vom Markt zurückgezogen haben.

Schwierigkeit der Systemintegration

Weitere Schwierigkeit: Der Spracherkenner darf nicht isoliert betrachtet werden, sondern, stellt im Endeffekt ein integriertes Komfort-Merkmal dar. Die Sprachverarbeitung greift also in das Innenleben eines Systems ein. Kopplungen mit Telefonen, Workstations, Rechnern oder Robotern setzten ein Know-how voraus, welches den Herstellern - insbesonderen kleineren - häufig abgeht. Bei Datenbank-Abfragen ist es zum Beispiel nicht mit der Installation von Mikrophon beziehungsweise Lautsprecher getan, sondern die gesamte Organisation der Daten muß auf das hinzugekommende Hörvermögen abgestimmt werden. Kreative Kleinfirmen verkaufen in der Regel Stand-alone-Lösungen, machen OEM-Geschäfte oder begeben sich unter die Fittiche von Konzernen.

Harald Höge, Gruppenleiter Sprachverarbeitung bei Siemens aus München geht von einem riesigen Markt aus, "aber wann er kommt, wissen wir nicht". Die schleppende Entwicklung hänge insbesondere damit zusammen, daß die Rechenleistung auf bestehenden Chips für die Beherrschung von Fließtext bis dato nicht ausreiche. Mit einer Wende könne man nicht vor 1994 rechnen. Höge weiter: "Der Fortschritt konnte mehr in der Forschung als auf dem Markt verzeichnet werden".

Im Bereich Einzelworterkennung gebe es nur ein paar Nischen, in denen die Anbieter so recht und schlecht vor sich hinlebten. Und Hoepelman bringt die Entwicklung wie folgt auf den Punkt: "Ich sehe den großen Durchbruch, der immer vorausgesagt wird, noch nicht."