Computer, die sprechen und zuhören

15.10.1976

Dr. Mark F. Medress

Leiter der Forschungsabteilung für Sprachkommunikation Sperry Univac, St. Paul, Minnesota

Mit der wachsenden Bedeutung der Computer in unserem Alltag möchten wir mit diesen auf eine natürlichere und bequemere Art Nachrichten austauschen.

Unser natürlichstes und leistungsfähigstes Übermittlungsmedium für vielfältige Informationen ist das gesprochene Wort. Eine Unterhaltung erfordert keine besonderen Fähigkeiten, wie das beim Maschineschreiben oder Kartenlochen der Fall ist. Wir können sprechen und zuhören, während unsere Hände und Augen beschäftigt sind. Außerdem bietet das weitverbreitete Fernsprechnetz eine fertige Sprechverbindung zu fernen Computereinrichtungen und Datenbanken, wenn nur jene Computer unsere mündliche, verbale Eingabe verstünden und mit gesprochenen Worten antworteten. Wenn die Computer uns auch noch an unseren stimmlichen Eigenarten erkennen könnten, dann wäre sogar der Zugriff auf Informationen und Einrichtungen automatisch auf befugte Personen begrenzt.

Heutzutage ist eine begrenzte Sprachein- und -ausgabe bei Coymputern bereits Wirklichkeit. So erfahren wir zum Beispiel per Computer die gesuchte Telefonnummer, unseren derzeitigen Kontostand, den Verbleib einer Luftfrachtsendung, den aktuellen Lagerbestand, Börsennotierungen und Luftverkehrsbedingungen.

Um diese Sprachausgaben zu ermöglichen, müssen zunächst von einem Menschen gesprochene Wörter und Sätze in den Computerspeicher eingegeben werden; danach werden sie in der entsprechenden Reihenfolge aneinandergereiht und ergeben die gewünschte Sprachausgabe. Über Telefon-Tastaturen zur manuellen Dateneingabe und Fragebeantwortung haben wir bereits jetzt bequemen Zugriff, auf ferngelegene Computereinrichtungen.

Für die Stimmeingabe und Kontrolle kommen nun auch Spracherkennungsgeräte zur Anwendung. Pakete und Gepäck können auf automatischen Förderbändern durch Einsagen des Bestimmungsortes sortiert werden; die Hände bleiben frei für gelegentliches Zurechtrücken der Stücke. Gütekontrolle und Prüfungen an Fertikungsbändern, Bestandsaufnahmen in Lagerhäusern und das Steuern von Werkzeugmaschinen sind weitere Anwendungsgebiete, die mit der Spracheingabe zu arbeiten beginnen.

Diese Spracherkennungssysteme beherrschen in der Regel ein Vokabular von zehn bis hundert Wörtern oder Sätzen. Jede Wort- oder Satzeingabe erfolgt in ein Mikrofon, das direkt mit dem Erkennungsgerät verbunden ist. Nach jeder Eingabe ist eine Pause einzulegen. Das Erkennungsgerät vergleicht dann das Klangmuster des unbekannten Wortes mit den gespeicherten Klangmustern des gesamten Vokabulars dieses speziellen Benutzers. Da jeder Mensch ein eigenes Klangmuster besitzt, werden die Stimmen unbefugter Benutzer im allgemeinen nicht voll erkannt, wodurch eine gewisse Zugriffskontrolle gewährleistet ist.

Künftige Sprachein- und -ausgabegeräte werden noch vielseitiger und leistungsstärker sein. Zur Zeit werden Spracherzeugungssysteme entwickelt, die einen gewöhnlichen Text in gesprochene Worte umwandeln. Diese elektrischen Systeme sind den menschlichen Sprechorganen nachgebildet und erzeugen in sehr ähnlicher Weise synthetische Sprache. Sie besitzen ein praktisch unbegrenztes Vokabular und bilden direkt aus großen Textspeichern natürliche und klar verständliche Sätze. Auch fortgeschrittene Spracheingabesysteme werden bereits entwickelt. Diese Systeme erkennen über 1000 Wörter in zusammenhängenden natürlichen Sätzen. Sie werden eines Tages einer Vielzahl von Benutzern über gewöhnliche Fernsprechleitungen zur Verfügung stehen und somit eine Zwiesprache mit Computern in vollem Umfang ermöglichen.

Andere Versuchssysteme zeigen Ansätze, eine Person ausschließlich an ihrer Stimme zu erkennen. Diese Systeme werden entweder die Identität einer Person bestätigen oder sie innerhalb einer bestimmten Personengruppe identifizieren. Diese Sprecher-Erkennungssysteme werden ebenfalls über gewöhnliche Fernsprechleitungen arbeiten, so daß der Zugriff auf Computerinformationen und -dienste anhand der Stimme kontrolliert werden kann.

Außerdem werden Neuentwicklungen auf dem Gebiet der digitalen Stimmübertragung künftig eine qualitativ bessere Sprachübertragung zu niedrigeren Gesamtkosten gestatten.

Mit dem Erscheinen hochentwickelter und vielseitiger Sprachein- und -ausgabegeräte werden in den nächsten zehn bis zwanzig Jahren eine Vielzahl neuer Anwendungsmöglichkeiten für die Sprechverbindung mit dem Computer eröffnet. Der gesamte Bankenservice sollte dann per Telefon möglich sein, wobei der Bankcomputer den Anrufer identifiziert, seine mündlichen Anweisungen versteht und mit eigener "Stimme" antwortet. Reisende werden in Zukunft direkt mit dem Buchungscomputer sprechen, ihre Unterkünfte und Fahrten auswählen, buchen und bezahlen können. Telefonauskünfte, Wetterberichte und viele andere Informationen werden sich mündlich per Telefon direkt abfragen lassen.

In anderen Bereichen, zum Beispiel dem der Flugsicherung, werden die Fluglotsen durch Computer unterstützt werden, die direkt mit dem Piloten sprechen und automatisch Warnungen und Anweisungen erteilen können, wodurch die Flugsicherheit erhöht wird. Studenten werden sich einmal mit ihren "computerisierten" Lehrsystemen unterhalten können, wodurch der Unterricht rationeller und individueller wird. Schließlich werden Schreibmaschinen zur Verfügung stehen, die in bestimmten Themenbereichen nach Diktat Entwürfe schreiben.

Neben den vielen künftigen Anwendungsmöglichkeiten liegt die wesentliche Bedeutung einer Sprechverbindung zum Computer darin, daß sie die wachsende Allgegenwärtigkeit des Computers erträglicher und nützlicher macht, indem sie diesen EDV-Systemen einen menschlicheren, um nicht zu sagen "persönlicheren Charakter" verleiht. Die Möglichkeiten, unsere Computer-Umwelt durch Stimmein- und -ausgabe zu bereichern, wird dann nur noch durch unsere Vorstellungskraft und Kreativität bei der richtigen Anwendung der neuen Sprachverarbeitungsmethoden begrenzt.