Hörende Computer: Noch wenig

Sinn für normales Sprachverhalten

01.05.1987

Die Spracherkennung ist weit hinter dem zurückgeblieben, was man sich vor einigen Jahren auf diesem Gebiet erwartet hat. Holger Delpho, Projektleiter bei der Basler Prognos AG, führt dies in erster Linie auf die zu geringe Verfügbarkeit und Erkennungssicherheit der Systeme zurück, die beispielsweise zur Steuerung von Prozessen oder zur Texterfassung per Mikrophon notwendig sind. Außerdem gab der Marktforschungsspezialist zu bedenken, daß für die in vielen Unternehmen angestrebte Vollautomatisierung der Datenerfassung eher die Belegmustererkennung und die elektronische Bildverarbeitung in Frage kämen. Bei den zur Zeit angebotenen Anlagen bemängelt der BBB-Mitarbeiter Klaus Kather, daß die Anwender zu einem atypischen Sprachverhalten gezwungen werden. "Die Komplexität der deutschen Sprache ist noch nicht erfaßbar. Eine kurze abgehackte Sprache, die im Befehls- und Kommandoton abgehalten ist, kommt dem Menschen nicht entgegen." Der auf die neue Technik spezialisierte Reinhard Meyer von der MTU Motoren- und Turbinen-Union schließlich, der einen hörenden Computer im Bereich Wareneingangskontrolle und Qualitätsprüfung einsetzt, hält den Einzug von spracherkennenden Systemen generell besonders dort für sinnvoll, wo man beide Hände für andere Betätigungen benötigt. Und brauchbar seien im übrigen lediglich solche Geräte, die man in die bereits bestehende Rechner-Landschaft einbinden könne. sch

Klaus Kather

Sachbearbeiter für den Bereich Telekommunikation bei der Bundesstelle für Büroorganisation und Bürotechnik (BBB) beim Bundesverwaltungsamt in Köln

Die Spracherkennung ist noch im Versuchsstadium. Es liegen jedoch bereits einige Testbeispiele mit einem mittleren Sprachaufwand und einem mittleren Sprachwortschatz vor. Besonders im Behindertenbereich und bei der Lagerverwaltung ergeben sich durch diese neue Technik Erleichterungen für den Bediener.

Generell scheint das eine sinnvolle Entwicklung zu sein aber die Komplexität der deutschen Sprache und der Sprache überhaupt ist noch nicht erfaßbar. Eine kurze abgehackte Sprache, die im Befehls- und Kommandoton abgehalten ist, kommt dem Sprachverständnis des Menschen nicht entgegen. Bei den zur Zeit vorliegenden Systemen bleiben auch Tonfall, Tonhöhe und Dialekte unberücksichtigt, so daß der Anwender zu einem atypischen Verhalten gezwungen wird.

Wenn man die Sache auf den Bürobereich einengt, dann ist die Frage nach der Notwendigkeit und dem Sinn von hörenden Computern natürlich noch schwieriger zu beantworten da hier bisher die wenigsten Kenntnisse vorliegen. Theoretisch birgt die Bürokommunikation wohl langfristig das größte Potential. Man sollte aber bedenken, daß die Probleme in der gegenwärtigen betrieblichen Praxis auf ganz anderen Gebieten liegen. So steht man in vielen Unternehmen - und des gilt auch für die öffentliche Verwaltung - mit Geräten für Telekommunikationszwecke und die Datenverarbeitung mit Arbeitsplatzrechnern erst am Anfang.

Holger Delpho

Projektleiter bei der Prognos AG, Basel

Alle, die die Systeme ein wenig beobachten, sind sich dahingehend einig, daß ihre bisherige Anwendung weit hinter dem zurückgeblieben ist, was man vor einigen Jahren erwartet hat. Auch die Hersteller und Entwickler solcher Systeme sehen heute realistischer in die Zukunft. Wenn man auf der Anwenderseite nach den Gründen sucht, stößt man im wesentlichen auf zwei Argumentationsfelder.

Die erste Argumentation bezieht sich ganz eindeutig auf die technische Leistungsfähigkeit dieser Systeme. Zum zweiten spielen aber auch die Schwierigkeiten des Einsatzes und des Einbindens in die tatsächliche Umgebung eine wichtige Rolle. Damit im Zusammenhang steht dann die Frage des Nutzens überhaupt sowie die Wirtschaftlichkeit des Einsatzes.

Im Hinblick auf die mangelnde Leistungsfähigkeit müssen insbesondere solche Applikationen genannt werden, wo es entweder auf eine hohe Erkennungssicherheit ankommt, also beispielsweise bei der Steuerung von Maschinen und Prozessen oder auch Alarmsystemen. Hier braucht man eine nahezu hundertprozentige Systemverfügbarkeit. Das gilt ebenfalls für den sprachaktivierten Type-Writer.

Auf der anderen Seite steht eine Vielzahl von industriellen Anwendungen, bei denen man mit einem geringen Sprachschatz auskommt. Insofern stellen die in diesem Bereich verfügbaren Systeme bereits eine Problemlösungsalternative zur Tastatureingabe dar.

Man muß aber auch feststellen, daß die Zielrichtung dieser Automatisierungsbestrebungen im Grunde genommen in Richtung Vollautomatisierung geht, daß heißt also die automatische Erfassung der relevanten Daten direkt durch die Maschine. Hierfür eignen sich jedoch in erster Linie die Belegmustererkennung und die elektronische Bildverarbeitung, während die Spracherkennung an der Schnittstelle zwischen Mensch und maschinellem System steht und insofern eine Art Halb- oder Teilautomatisierung darstellt. Sie ersetzt den Mensch nicht prinzipiell und a priori, sondern ist im Gegenteil sogar an sein Vorhandensein gebunden.

Wenn man den Informationsstand hinsichtlich der Spracherkennung im industriellen Bereich mit dem Ausbau oder der tatsächliche Inangriffnahme einer solchen Systeminstallation vergleicht, dann stößt man darauf, daß ein relativ hoher Anteil negative Erfahrungen gemacht hat und leider nur wenige Kenntnisse vorliegen.

Reinhard Meyer

Abteilung Qualitätsprüfung und Zulieferungen bei der MTU Motoren- und Turbinen-Union München GmbH

Die Spracherkennung kommt für bestimmte Bereiche wie die Wareneingangskontrolle, die Fertigung und die Lagerverwaltung in Frage. Wenn jemand ölige Finger hat oder Handschuhe, dann ist das eine ideale Sache. Handelt es sich jedoch um die reine Eingabe von Daten und Zahlen, ohne daß man dabei etwas mit den Händen zu tun hat, erscheint diese Technik weniger sinnvoll. Hier ist eine angelernte Kraft oder gar eine Datentypistin mit ihren Fingern schneller, als wenn sie in ein Mikrophon spricht.

Wir haben erste Erfahrungen mit der Spracherkennung in den Bereichen Wareneingangsprüfung und Qualitätsprüfung gemacht. Hier kommt man nicht umhin - wenn das eine einzelne Person macht -, während der Datenerfassung die zu registrierenden Teile in die Hand beziehungsweise unter die Lupe zu nehmen. Dadurch wird das Eingeben am Terminal erschwert und birgt größere Fehlerquellen bei zwei Personen. Fehler können wir uns aber aufgrund sehr strenger behördlicher Vorschriften und der nötigen Sicherheit in der Luftfahrtindustrie nicht leisten. Die Folge davon war, daß wir vor dem Einsatz eines hörenden Computers zwei Personen zur Erfassung der Teile benötigten. Dabei können sich aber sehr leicht Irrtümer einstellen. Man kann falsch ablesen, man kann sich beim Sprechen der Informationen versprechen, und das jeweilige Gegenüber kann etwas mißverstehen.

Akzeptanzschwierigkeiten gab es hier bisher keine. Da man aber eine bestimmte Sprechweise benötigt, setzt die Bedienung des Geräts eine Schulung voraus. Darüber hinaus ist es unabdingbar, daß der Benutzer von einem auf den anderen Tag seine Sprechgewohnheiten nicht ändert. Wenn ich hier jemanden hinsetze, der normalerweise bayerisch redet und sich nun bei der Schulung bemüht, hochdeutsch zu sprechen, bringt das den Rechner in Verwirrung. Auch Gemütslagen beeinflussen die Erkennung. Das System ist im Prinzip sehr einfach aufgebaut. Es erkennt nur bestimmte Sprachmuster; insofern kann man auch eine Fremdsprache verwenden.

Wir haben uns für eine Anlage entschieden, deren Speicher sich nach erhöhten Anforderungen entsprechend ausbauen läßt. Außerdem konnte das Gerät die Grundvoraussetzung erfüllen, daß es auch mit den bereits vorhandenen Systemen, die entweder von IBM oder Herstellern IBM-kompatibler Rechner stammen, kommunizieren kann. Zudem ist der Parallelbetrieb von Sprache und Tastatur möglich. Auch der Rationalisierungseffekt ist nicht unerheblich, denn unter dem Strich ergibt sich durch den Einsatz dieses Systems eine Personalersparnis. Der Bedarf für ein zweites oder drittes Gerät zeichnet sich bereits jetzt ab.

Der Name des Autors wurde auf Wusch des MTU-Sicherheitsbeauftragten weggelassen beziehungsweise von der Redaktion geändert.

Hans Brock

Leiter des Produktmanagements für Mikrochirurgie und für Operationsmikroskopie bei Zeiss, Oberkochen

Ein für die Sprachsteuerung prädestiniertes Anwendungsgebiet ist die Mikrochirurgie im Operationssaal. Als diese hörenden Systeme vor etwa zwei Jahren auf den Messen vorgestellt wurden, war bei den entsprechenden Chirurgen vielfach Erstaunen die Reaktion. Mittlerweile ist zwar die Sprachsteuerung mehr in das Bewußtsein der Mediziner gedrungen, doch verhalten sich viele Ärzte weiterhin sehr zurückhaltend, was den Einsatz solcher Anlagen betrifft. Der Grund dafür liegt ganz einfach darin, daß sich die Funktionen auch über Fuß- oder Handschaltpulte steuern lassen. Insgesamt lassen sich 13 Funktionen und 16 Operateure programmieren, aber vielfach ist diese Anzahl von Kommandos gar nicht notwendig.

Operationsmikroskope werden in der Augenheilkunde, im Hals-Nasen-Ohren-Bereich, in der Neurochirurgie, in der Hand- und plastischen Chirurgie, in der Gynäkologie, in der Urologie und in der rekonstruktiven Chirurgie benötigt.

Mit Ausnahme der Augenheilkunde müssen in der Regel nur zwei Funktionen gesteuert werden, nämlich die Vergrößerung und der Fein-Focus. Aus diesem Grunde ist die Spracherkennung in diesem Bereich momentan keine große Erleichterung. Auch braucht man bei einer Operation nicht - wie vom Gerät technisch vorgegeben - 16 verschiedene Chirurgen. Wenn fünf oder sechs Operateure auftreten, dann ist das schon viel.

Die Zukunft sehen wir aber doch etwas anders, weil auf die Dauer doch immer mehr Funktionen und Aggregate zu steuern sein werden, so daß irgendwo die Grenze erreicht ist, wo das ein Chirurg bequem mit Hand- und Fußschaltpulten machen kann.