Natursprachliche Benutzeroberfläche wird Akzeptanz verbessern:

Spracherkennung - Notwendigkeit oder Spielerei?

20.11.1987

Seit Spracherkennung für den praktischen Einsatz erstmals auf der Hannover-Messe 1980 vorgestellt wurde, haben viele Autoren aber Sprachverarbeitung, speziell über Spracherkennung, geschrieben. Das Spektrum der Reaktionen reichte von begeisterter Zustimmung und hohen Erwartungen über Skepsis bis hin zur völligen Ablehnung. Der Autor beschreibt nachfolgend Entwicklungsstand und wichtigste Komponenten dieser noch umstrittenen Technik.

Prinzipiell kann für jede, betriebliche Organisation ein optimales Datenerfassungskonzept realisiert werden. Der Trend zur, indirekten Datenerfassung (offline) über Informationszwischenträger verliert innerhalb geschlossener Systeme an Bedeutung, denn Datenerfassung (DE) wird weniger als isolierter Vorgang, sondern vielmehr als integrierter Bestandteil der Datenverarbeitung gesehen.

Die richtige Lösung ist vor allem von der Art der Datenerfassungsorganisation (zentral oder dezentral), der Menge und Spezifikation der Daten, den Aktualitätskriterien, den Anwenderbedingungen sowie dem Zeitraum der Datenerfassung und -verarbeitung abhängig. So setzen auch unter dem Aspekt, der optimalen Computerausnutzung - überwiegend kaufmännische Verwaltungen und Fluggesellschaften (Platzbuchungssystem) auf bildschirmorientierte Online-Datenerfassung.

Darüber hinaus gibt es jedoch zahlreiche DE-Anwendungsgebiete, die nach komfortableren Lösungen verlangen. Direkte Datenerfassung mittels optischer Zeichenerkennung (OCR = Optical Character Recognition), und Spracherkennung gewinnen deshalb an Bedeutung. Niedrige Fehlerquoten, hohe Anpassungsfähigkeit und günstiges Preis/Leistungs-Verhältnis sind Faktoren, die diese Entwicklung entscheidend beeinflussen.

Grundsätzlich unterscheide der Spezialist bei der direkten Datenverarbeitung zwischen der Verarbeitungsebene (Was soll getan werden?) und der Dialogebene (Wie soll es getan werden?). Diese Einteilung gilt auch für Datenerfassungssysteme, die auf Dialogebene akustische Kommunikationsmittel verwenden, wenn ein rein akustischer oder akustischvisueller Dialog zwischen den Kommunikationspartnern "Mensch" und "Rechner" stattfindet.

Die Dialogebene ist - unabhängig ob zur Datenerfassung oder Maschinensteuerung - durch den Eingangskanal (akustische Spracherkennung), Dialogsteuerung und den Rückkanal (akustisch, visuell) gekennzeichnet.

Die Leistungsfähigkeit der einzelnen Komponenten, Qualität des Eingangs- und Rückkanals sowie wirtschaftliche Verarbeitungsfunktionen und ergonomische Dialogsoftware bestimmen im Mensch-Maschine-Dialog wesentlich die Anwender Akzeptanz. Ebenso zeigen Beispiele aus der Praxis daß die "Maus" als Eingabemedium nur Zusammenspiel mit einem Monitor für den, Rückkanal sinnvoll ist.

Um möglichst alle relevanten Informationen des Sprachsignals in den Spracherkennungsvorgang einzubeziehen, werten leistungsfähige Spracherkenner der Vorverarbeitung einen Frequenzbereich von etwa 100 Hertz bis 7 Kilohertz aus. Parallel geschaltete Filter splitten den Frequenzbereich beispielsweise, in 16 Teilbereiche.

Durch Messungen und Vergleiche werden daraus spektrale Merkmale ermittelt, die sprachtypische Eigenschaften beschreiben und Rückschlüsse aus phonetisch relevanten Informationen erlauben. Nach der anschließenden Wortanfangs- und -endbehandlung sowie der nichtlinearen Zeitnormierung wird ein Bitmuster gebildet, das das gesprochene Wort repräsentiert.

Das Bitmuster, der sogenannte Wortkandidat, wird in der Trainingsphase als Referenzmuster abgelegt. Im Erkennungsbetrieb wird der gespeicherte Begriff mit dem im Speicher abgelegten Referenzmuster verglichen und klassifiziert. Bei der Klassifikation kommt es jetzt zur Entscheidung, welchem Referenzmuster der Wortkandidat am nächsten liegt. Das so ermittelte Wort gilt als erkannt, sofern es eine Mindestübereinstimmung mit den Wortkandidaten aufweist. Die Genauigkeit der Übereinstimmung kann per Betriebsparameter entsprechend der Applikationsforderung eingestellt werden.

Spracherkenner, die nach dem beschriebenen Prinzip arbeiten, bestehen je nach Bauweise und Leistungsfähigkeit aus einem oder mehreren Baugruppen. In den meisten Fällen bildet ein Standardprozessor mit entsprechender Erkennungssoftware das Kernstück eines Spracherkenners. Die zur Zeit noch notwendige spezielle Hardware für die Vorverarbeitung findet üblicherweise auf einer eigenen Baugruppe Platz.

Einige Hersteller von Spracherkenungsgeräten verlagern ihr spezifisches Know-how elektronischer Spracherkennung immer auf die Software. Dadurch wird eine Unabhängigkeit von teurer, spezieller Hardware und größere Flexibilität für Weiterentwicklung, erreicht.

Vergleicht man die elektronische Spracherkennung mit dem Sprachverständnis eines Menschen, so ist zur Zeit der Entwicklungsstand eines ein- bis zweijährigen Kindes erreicht. Dies bedeutet jedoch nicht, daß eine Kommunikationsinhalt, also den Wortschatz, die Dialogform und die damit verbundenen Dialoghilfsmittel im klaren sein.

Ähnlich dem menschlichen Dialog ist die Spracherkennung von der Fähigkeit des korrekten Verstehens und von äußeren Faktoren wie Umgebungsbedingungen, Sprecher, Wortschatz, Training und Mikrofon abhängig. Deshalb muß die Leistungsfähigkeit eines Spracherkenners nicht nur nach dem Grad der Sprecherabhängigkeit, nach Vokabularumfang und Fließgrad der Sprache beurteilt werden, sondern auch nach seinen Toleranzgrenzen im Hinblick auf externe Faktoren.

Diese Kriterien bringen für den Anwender jedoch erst dann einen Nutzen, wenn eine benutzergerechte Einbettung der Leistungsmerkmale in den Dialogablauf möglich ist.

Während der Spracherkenner des Eingangskanals und die Feedback-Geräte des Ausgabekanals "nur" periphere Aufgaben erfüllen, ist die Dialogsoftware das Kernstück eines Mensch-Maschine-Dialogs. Sie bildet die direkte Kontaktfläche zwischen Benutzer und System. Diese interaktive Schnittstelle, im folgenden als Benutzeroberfläche bezeichnet, stellt mit ihren Ein- und Ausgabemöglichkeiten die Verbindung zwischen Anwender und interner Systemleistung dar. Diese Schnittstelle nimmt neben der eigentlichen Dialogsteuerung wie Reject-Behandlung, Nachtraining oder Rückfragen auch noch administrative Aufgaben für die Geräte des Eingangs- beziehungsweise Rückkanals wahr.

In der Praxis wird mit der Dialogsoftware die Benutzeroberfläche eines sprachgesteuerten Dialogs auf die Leistungsfähigkeit der Geräte abgestimmt. Hierbei zeigen sich deutliche Unterschiede zum tastaturgesteuerten Dialog. Nachfolgend sind einige Aufgaben als Beispiel aufgeführt, die die sprachspezifischen Aufgaben der Dialogsoftware aufzeigen:

- Laden Sprachmuster

Da es sich bei den heutigen Spracherkennern meist noch um sprecherabhängige Geräte handelt, müssen zu Beginn der Arbeit durch die Dialogsoftware Sprachmuster des entsprechenden Benutzers in den Spracherkenner geladen werden.

- Reject-Behandlung

Hat der Benutzer im laufenden Betrieb falsch eingegeben oder hat der Spracherkenner eine Eingabe falsch interpretiert, so muß dies dem Benutzer in entsprechend der Anwendung und Möglichkeiten der Feedbackgeräte geeigneter Form gemeldet werden.

- Rückfrage

Wird als Feedback die Sprachausgabe verwendet, so muß der Benutzer bei nicht verstandener Sprachausgabe das System auffordern, die Aufgabe zu wiederholen.

- Nachtraining

Verschlechtert sich durch Stimmungsschwankungen des Benutzers (müde, aggressiv) oder sonstigen Umfeldeinflüssen die Erkennungsqualität, so muß dem Benutzer, ohne daß er die Anwendung verläßt, die Möglichkeit des Nachtrainings geboten werden.

- Pause

Will ein User den Dialog unterbrechen, so muß es möglich sein, die Spracherkennung mit der Sprache auf "taub" zu schalten und anschließend wieder zu aktivieren.

Jedes Eingabemedium setzt bestimmte Ausgabemedien voraus. Somit ist bei der Wahl des Dialoghilfsmittels für den Ausgangskanal die eigentliche Anwendung und damit verbundene Mobilität des Benutzers ebenso bedeutend wie die Leistungsfähigkeit des Spracherkenners.

Grundsätzlich gibt es für den Rückkanal das akustische oder das visuelle Dialoghilfsmittel. In besonderen Anwendungen ist sogar eine Kombination dieser beiden Möglichkeiten notwendig.

Das akustische Dialoghilfsmittel kann entweder Sprachausgabe sein oder auch nur ein einfaches akustisches Signal, über das der Benutzer erfährt, ob eine Eingabe falsch oder korrekt gesprochen wurde.

Die Sprachausgabe ist im Vergleich zur Spracherkennung technisch unkomplizierter. Denn im Gegensatz zur Spracherkennung, die mit unbekannten, zu verifizierenden Signalen arbeitet, verwendet die Sprachausgabe bekannte Signale.

Zur Sprachausgabe werden heute zwei Lösungen angeboten:

1. Reproduktive Sprachausgabe

Bevor die Sprachausgabe erfolgen kann, werden in einem einmaligen Arbeitsschritt die Sprachphrasen (Wörter Satzteile) digitalisiert, nach unterschiedlichen Verfahren komprimiert und auf einem elektronischen Speicher abgelegt. Sie können bei Bedarf von dort wieder abgerufen und in analoge und anschließend in hörbare Form umgesetzt werden. Die digitalisierte Sprachausgabe hat eine hohe Sprachqualität, benötigt aber je nach Verfahren zwischen 5 KBit pro Sekunde (LPC) und 64 KBit pro Sekunde(PCM) Speicher.

2. Synthetische Sprachausgabe Bei dieser zur Zeit noch als "Robotersprache" bekannten Methode wird die schriftlich niedergelegte Information (ASCII-Zeichen) direkt über einen Synthesizer in analoge Signale und somit hörbare Form umgesetzt. Die hierbei erzeugte Sprache klingt noch künstlich. Der Vorteil dieser Methode liegt im unbegrenzten Wortschatz und geringen Speicherbedarf.

Beide Verfahren bringen im praktischen Einsatz als Teil der Mensch-Maschine-Kommunikation wesentliche Vorteile:

- keine räumlich fixierte Ausrichtung der Ausgabe, damit erhöhte Bewegungsfreiheit

- die Augen werden frei für räumliche Erfassungs- und Koordinierungsaufgaben

- Informationen gibt der Anwender in seiner Muttersprache ein.

Ein Nachteil des Sprachdialogs besteht darin, daß sich der Benutzer im Moment der Sprachausgabe voll auf die an ihn gerichtete Information richtet. Mit Hilfe der Dialogsoftware fordert der Benutzer jedoch verbal das System auf, die letzte Sprachausgabe zu wiederholen.

Das visuelle Dialoghilfsmittel ist bei der Datenerfassung in der Regel ein Monitor oder, ein Zeilendisplay, wobei in besonderen Fällen ein Aufleuchten von verschiedenen Signallampen auch ausreichend sein kann.

Praktische Anwendungsmöglichkeiten

Der entscheidende Vorteil der Spracherkennung liegt darin, daß der Anwender seine Hände für wichtige Hantierungsarbeiten frei behält Typische Einsatzgebiete von Spracherkennungssystemen sind deshalb Qualitätskontrolle, Warenein- und -ausgang, Inventur und Lagerverwaltung, Paket- und Gepäcksortierung, Bild- und Labordatenerfassung, als Behinderten-Hilfsmittel oder bei Montagearbeiten in der elektronischen Fertigung oder bei chirurgischen Eingriffen, bei denen ein Elektronenmikroskop gesteuert werden muß.

Für die technische Weiterentwicklung von Spracherkennern sind in naher Zukunft keine Innovationssprünge zu erwarten. Vielmehr ist mit einer kontinuierlichen Weiterentwicklung auf Basis bestehender Geräte zu rechnen. Zwei Beispiele dafür: Einmal die adaptive Erkennung als Vorstufe in Richtung Sprecherunabhängigkeit, zum anderen "verbundene Ziffern" zur Verbesserung des Fließgrades. Um für die Sprachverarbeitung, einen größeren Benutzerkreis zu gewinnen, muß neben der technischen Weiterentwicklung von Sprachverarbeitungsprodukten das menschliche Verhalten im "natürlichen" Mensch-Maschine-Dialog untersucht werden. Ziel ist, Standard-Dialogsoftware zu schaffen, die dem Benutzer eine möglichst natürliche und gewohnte Art der Kommunikation erlauben. Neben den zuvor genannten traditionellen Anwendungsbereichen werden durch sinkende Gerätepreise und entsprechender Dialogsoftware zukünftig neue Anwendungen wie beispielsweise CAD-Arbeitsplätze, Workstation, Manager-Arbeitsplätze oder Maschinensteuerung erschlossen.

Dipl.-Ing. (FH) Edwin König ist Mitarbeiter in der Abteilung Produktplanung, zuständig für Sprachverarbeitung bei der CKG Computer Gesellschaft Konstanz mbH.