Visionen auf dem Prüfstand/Von der Science Fiction zum Voice Commerce

Sprachdialogsysteme sind einsatzbereit

10.01.2003
Seit den 70er Jahren wird daran gearbeitet, dass Computer gesprochene Sprache verstehen und beantworten können. Mittlerweile breitet sich die Technik im Alltag aus, zum Beispiel in Reservierungs- und Auskunftssystemen. Zunächst wird der Sprachfluss digitalisiert. Von Christoph Pfeiffer*

Nach Jahrzehnten der Forschung und Entwicklung sind heute die ersten kommerziellen Sprachdialogsysteme etwa bei Airlines und Mobilfunkbetreibern erfolgreich im Einsatz. Das Schlagwort heißt "natürlichsprachliche Dialogsysteme". Damit sind nicht etwa die umständlichen Menüs gemeint, die man mit ein-, zwei- oder dreimal Tastendrücken oder umständlichen Ja-Nein-Antworten steuert, sondern Computer, mit denen man sich in natürlicher Sprache unterhält, beispielsweise: "Was läuft heute Abend im Kino?" Man muss sich keine Erklärungen anhören, sondern kann dem Computer jederzeit ins Wort fallen, sagt einfach, was man will, und erhält prompt eine Antwort.

Technologisch weiter verbessert könnten sich Sprachdialogsysteme künftig als Benutzer-Schnittstelle der ersten Wahl für immer mehr computergestützte Services etablieren. Der Markt liegt in der Kopplung von Spracherkennungs- und Sprachdialogsystemen einerseits und den Inhalten und Services aus dem Internet und aus Datenbanken andererseits. Fachleute sprechen vom "Voice Commerce" und von "Voice Portals", zu deutsch Sprachportalen. "Die hohen Personalkosten in klassischen Call-Centern werden Sprachportalen auf der Basis neuer Technologie den Durchbruch verschaffen", glaubt Felix Hampe vom Institut für Wirtschaftsinformatik an der Uni Konstanz. Der Professor wird von Analysten bestätigt: Fachleute der Marktforschungsgesellschaft Forrester Research prognostizieren einen Boom für V-Commerce. Schon im nächsten Jahr soll ein weltweites Marktvolumen von 450 Milliarden Euro erreicht werden. Die Begründung: Die Verbreitung von Handys steigt drastisch schneller als die PC-Nutzung, und die meisten Handys werden auch künftig primär zum Telefonieren und nicht zum Internet-Surfen eingesetzt werden. Bei Sprachportalen ruft der Verbraucher einfach an und wird im Dialog bedient: Tickets reservieren, Reisen buchen, Waren bestellen, die Verkehrssituation erfragen - immer mehr Gebiete des täglichen Lebens könnten künftig durch Sprachdienste abgedeckt werden. Wer ein Telefon besitzt, wird künftig Sprachportale nutzen, prognostiziert Datacom Research fest. Hampe ergänzt, dass die Potenziale und Anwendungsvielfalt von natürlichsprachlichen Portalen bislang "noch gar nicht vollständig erkannt sind und hier nur wenige Pioniere den deutschen Markt qualifiziert vorbereiten".

Die entscheidende Technologie ist die Spracherkennung. Schon vor über 30 Jahren hob der Bestsellerautor Arthur C. Clarke in seinem Roman "2001 - Odyssee im Weltraum", verfilmt von Stanley Kubrick, den sprechenden Computer HAL aus der Taufe. Seit den 70er Jahren befassten sich zahlreiche Forschungsprojekte mit dem Thema.

Ein überaus komplexer Prozess

Am erfolgreichsten war "Harpy" von der Carnegie Mellon University: Das System konnte erstmals vollständige Sätze verstehen, sofern sich der Sprecher an eine stark eingeschränkte Grammatik hielt. In zahlreichen weiteren Forschungsprojekten gelang es, die Fehlerrate bei der Spracherkennung um zirka 30 Prozent jährlich zu reduzieren. Parallel dazu stieg die Komplexität der verarbeiteten Sprachäußerungen etwa um den gleichen Faktor. Mitte der 90er Jahre rückte die kommerzielle Nutzung der Spracherkennungssysteme in greifbare Nähe. Das in Clarkes Roman erwähnte Datum der Inbetriebnahme von HAL, der 12. Januar 1997, ist zwar nicht als Durchbruch in die Annalen der Spracherkennung eingegangen, aber die Systeme erlangten allmählich Serienreife. Die ersten auf Spracherkennung spezialisierten Unternehmen wurden gegründet und begannen, den Markt zu erobern.

Spracherkennung ist ein überaus komplexer Prozess. Herbert Reininger, Professor am Institut für Angewandte Physik der Johann-Wolfgang-Goethe-Universität Frankfurt am Main mit Arbeitsschwerpunkt Sprachverarbeitung, kennt dieses Problem: "Die Schwierigkeit der Spracherkennung liegt in der großen Variabilität, mit der Inhalte in Worte gefasst werden. Dies betrifft sowohl die Sprachsignale selbst (Sprechgeschwindigkeit, Artikulation sowie Einfluss der Übertragung - beispielsweise Mobiltelefon versus Festnetz) als auch die Wörter oder Sätze (Sprechweise, Dialekte sowie soziokultureller Hintergrund)."

Zunächst wird der Sprachfluss digitalisiert. Hierbei entsteht ein Datenvolumen von knapp 2 Megabyte pro Minute. Durch die Zusammenfassung zu Phonemen reduziert sich die Datenmenge um den Faktor zwei bis vier. Für das Zusammenfügen zu Worten und Wortfolgen werden Verzögerungen beim Sprechen und lautliche Variationen durch ausgeklügelte mathematische Algorithmen berücksichtigt, um das Wort zu identifizieren, das der Sprecher mit der höchsten Wahrscheinlichkeit meinte. Der "Wahrscheinlichkeits-Konverter" ist lernfähig. Man kann ihm beispielsweise beibringen, dass "ham" in vielen Fällen "haben" heißen soll. Heutige Systeme sind so in der Lage, fließend gesprochene Sprache selbst mit starkem Dialekteinschlag weitgehend fehlerfrei zu erkennen.

Dialekt- und Spontansprache ein Problem

Laut Reininger ist derzeit die Erkennung der Dialektsprache und darüber hinaus auch der Spontansprache immer noch Gegenstand der Forschung und noch nicht als gelöstes Problem zu betrachten. Die Erkennung derartig gesprochener Sprache ist unter anderem deshalb besonders schwierig, so der Sprachexperte der Goethe-Universität, weil grammatikalische Regeln kaum befolgt werden, weshalb dieses Wissen nur bedingt erfolgreich zur Erkennung verwendet werden kann.

Die Umsetzung gesprochener Sprache in eine textuelle Repräsentation ist jedoch erst die halbe Strecke auf dem Weg zu Sprachdialogsystemen, von denen man ein "intelligentes" Dialogverhalten erwartet. Die zweite Strecke ist durch komplexe syntaktisch-semantische Analysen und Dialogsteuerung gekennzeichnet. Hierbei wird die Benutzeräußerung in den Kontext des bis dahin geführten Dialogs eingebettet. Zudem muss die nächste Aktion des Systems geplant werden. Eine Hauptschwierigkeit besteht darin, unvollständige Äußerungen kontextgerecht zu interpretieren. Wenn auf die Systemrückfrage "Sie wollen ein Zimmer vom 18. auf den 19. August buchen" die Antwort "Nein. Ein Appartement, und zwar bis zum 20." erfolgt, muss das System wissen, dass das "Appartement" das "Zimmer" und der "20." den "19." ersetzt. Dazu kommt die Erkenntnis, dass das "Nein" am Anfang keine grundlegende Ablehnung bedeutet, sondern nur eine Variante des Buchungsvorgangs einleitet. "Durch eine intelligente Dialogführung und eine mit semantischen Tags arbeitende Spracherkennung kann heute bereits ein natürlichsprachlich erscheinender Dialog mit hoher Qualität geführt werden", erläutert Reininger.

Text linguistisch analysiert

Rückfragen und Antworten werden durch Sprachsynthese ausgegeben. Hierzu wird der zu sprechende Text linguistisch analysiert. Anschließend werden die Wörter anhand von Aussprachelexika aus Laut- und Silbenbausteinen zusammengesetzt.

Laut dem Koblenzer Wirtschaftsinformatiker Hampe "zeigt sich bei näherer Betrachtung der Dialoge in Customer Interaction Centern, dass innovative Sprachtechnologie geradezu ideal für die Vorqualifizierung von Anrufern ist". Die Forschungs- und Entwicklungsarbeiten der vergangenen 30 Jahre haben sich ausgezahlt. Die ersten serienreifen natürlichsprachlichen Dialogsysteme sind im kommerziellen Einsatz. Dennoch werden noch mehrere Jahrzehnte weiterer Forschung notwendig sein, bis die Systeme derart ausgereift sind, dass man am Telefon nicht mehr auf Anhieb zwischen einem Sprachcomputer und einem menschlichen Ansprechpartner unterscheiden kann. Für viele Anwendungen, von denen die Verbraucher heute schon profitieren können, ist diese Perfektion allerdings gar nicht notwendig.

Heutige Sprachdialogsysteme erfüllen beinahe durchweg die folgenden Kriterien:

-Sprecherunabhängigkeit: Selbst mittelschwere Dialekte werden verkraftet. Auch der Wechsel zwischen mehreren Sprachen (zum Beispiel Deutsch/Englisch) wird von einigen Systemen toleriert.

-Kontinuierlicher Sprachfluss: Der Mensch kann mit der Maschine so flüssig sprechen wie mit einem anderen Menschen.

-Dynamisches Vokabular: Die Systeme sind für bestimmte Umgebungen, Anwendungen und Fachgebiete trainierbar. Wie leicht und flexibel die Trainierbarkeit ist, variiert allerdings stark zwischen den einzelnen Lösungen.

-Jederzeitige Unterbrechbarkeit: Der Benutzer kann dem Sprachcomputer jederzeit ins Wort fallen. Das ist insbesondere beim Telefon eine technische Herausforderung, weil auf der Telefonleitung kurzzeitig sowohl die Sprachausgabe des Computers als auch die Äußerung des Benutzers übertragen wird.

Ein Sprachdialogsystem ist für alle Firmen sinnvoll, die Kunden und Beschäftigten den Kontakt per Telefon erleichtern wollen. So bietet sich der Einsatz zum Beispiel für Auskunftsdienste an, die ihr Leistungsspektrum über eine bloße Telefon-, Bahn- oder Flug-auskunft hinaus um Mehrwertdienste erweitern wollen. Eine weitere Zielgruppe sind alle Unternehmen, die auf Voice Commerce setzen, also den telefonischen Vertrieb von Produkten, Eintrittskarten und Services.

Um die technischen Einschränkungen heutiger Sprachdialogsysteme auszugleichen, empfiehlt sich für komplexe Anwendungen die Kombination aus Computerlösung und Call-Center. Einfache Auskunftsanfragen vom Kinoprogramm über das Wetter und Sportergebnisse bis zur Flugauskunft werden vom Computer abgewickelt. Komplexe Anfragen leitet das System an ein Call-Center, in dem Menschen weiterhelfen. "Der Einführung und Verbreitung von Sprachportalen steht heute sicher nicht mehr die mangelnde Akzeptanz der Kunden im Wege. Die sind nämlich in vielen Fällen an primitivere Systeme gewöhnt und werden wesentlich verbesserte, sprachbasierende Systeme begrüßen", resümiert Hampe. (bi)

*Christoph Pfeiffer ist Vorstandsvorsitzender der Clarity AG, Bad Homburg, und 1. Vorsitzender des Branchenverbandes Voice Application Standard Committee (VAS Com e.V.).

Angeklickt

- Das Schlagwort heißt "natürlichsprachliche Dialogsysteme".

- Technologisch könnten sich Sprachdialogsysteme künftig als Benutzer-Schnittstelle der ersten Wahl für immer mehr computergestützte Services etablieren.

- Bei Sprachportalen ruft der Verbraucher einfach an und wird im Dialog bedient: Tickets reservieren, Reisen buchen, Waren bestellen, die Verkehrssituation erfragen - immer mehr Gebiete des täglichen Lebens könnten künftig durch Sprachdienste abgedeckt werden.

- Die Erkennung der Dialektsprache und der Spontansprache ist immer noch Gegenstand der Forschung und noch nicht als gelöstes Problem zu betrachten.

- Für viele Anwendungen ist Perfektion nicht notwendig.

Abb.1: Ziel: Multimediale Portale mit Sprachsteuerung

Immer mehr Gebiete des täglichen Lebens können durch natürlichsprachliche Sprachdienste abgedeckt werden. Wer ein Telefon besitzt, wird künftig Sprachportale nutzen, prognostiziert Datacom Research. Multimediale Portale mit Sprachsteuerung sind noch Zukunftsmusik. Quelle: Clarity

Abb.2: Visionen auf dem PrüfstandEntwicklung von NLU-Systemen

Natural Language Understanding (NLU): Seit 1998 verstehen die Systeme Sätze. Quelle: Clarity