Nur noch auf Ablesen und Sprechen konzentrieren

25.04.1980

Mit Ralf Schwarz, stellvertretender Geschäftsführer der Computer Gesellschaft Konstanz, sprach Dieter Eckbauer

- Herr Schwarz, Datenerfassung ohne Tastatur, das ist ein Traum der Datenverarbeiter. Nun hat die Computer Gesellschaft Konstanz hier in Hannover ein Spracherkennungssystem vorgestellt, das charakteristische Sprachmuster eines bestimmten Sprechers erkennt. Fachleute hätten vielleicht einen größeren Schritt auf diesem Gebiet erwartet.

Man muß dazu sagen, daß das, was wir vorstellen, zur Zeit durch kein anderes Produkt und durch kein anderes Verfahren in seiner Leistungsfähigkeit überboten wird. Das heißt: Was nach dem Stand der Technik machbar ist, wurde realisiert. Wir sind der Meinung, daß die gebotene Qualität für viele Anwendungen nicht nur ausreichend ist, sondern sich in einigen Fällen sogar revolutionierend auf die Abwicklung technischer und organisatorischer Vorgänge auswirken wird.

- An welche Anwendungen denken Sie dabei?

Die Spracherkennung verwirklicht das natürliche menschliche Bedürfnis, sich über die Sprache auch mit dem Gerät oder mit dem Prozeß verständigen zu können. Es gibt viele Spezialbereiche, in denen durch Spracherkennung effektive verfahrenstechnische und qualitative Fortschritte erreicht werden. Nehmen wir als Beispiel Vorgänge, bei denen die Bediener von Maschinen ihre Hände gebrauchen müssen, wie bei der Paketverteilung, bei der Begutachtung von Geräten im Wareneingang oder der Qualitätskontrolle. Dort ist es ein Problem, Tastaturen zu benutzen, falls die Hände auch noch benutzt werden müssen, um Gegenstände zu halten. Hier kann eine Spracheingabe nicht nur den Ablauf erleichtern, sondern - wie praktisch erwiesen - auch die Fehlerraten durch Vermeidung konzentrationshemmender Nebenarbeiten drastisch drücken. Bei anderen Anwendungen ist die Umgebung so schmutzig, daß man ebenfalls ungern mit Tastatureingaben arbeitet. Außerdem gibt es noch ein zusätzliches wesentliches Argument: Spracheingabe hat eine relativ geringe Fehleranfälligkeit, da sie Ermüdungserscheinungen bei monotoner oder sich häufig wiederholenden Tätigkeiten drastisch reduziert; Konzentration ist eben nur noch für das Ablesen und Sprechen notwendig. Insofern bringt die Spracherkennung neben den rein technisch-kommerziellen Vorteilen auch den Aspekt der Humanisierung des Arbeitsplatzes von zum tragen.

- Nun sind gerade Mitarbeiter in den von Ihnen genannten Bereichen bekanntlich etwas EDV-feindlich eingestellt. Erwarten Sie sich vom Einsatz tastaturfreier Eingabegeräte - eben Spracheingabegeräte -, daß die Akzeptanzschwelle herabgedrückt wird?

Wir haben von Feindlichkeit nichts gespürt und können bei unseren Kontakten hier auf der Messe sogar das genaue Gegenteil feststellen. Die Resonanz erweist sich, obwohl wir schon recht optimistisch angetreten sind, als ausgesprochen gut.

Die Vorteile sind für viele der nach Problemlösungen suchenden Anwender offensichtlich so naheliegend, daß wir selbst vom Anregenden zum Angeregten geworden sind. Kritik an der technischen Ausgestaltung oder der gebotenen Leistungsfähigkeit haben wir praktisch nicht zu hören bekommen.

- Bei dem hier vorgestellten System handelt es sich um ein amerikanisches Produkt der Firma TTI, das Sie übernommen haben. Nun wird ja die Computer Gesellschaft Konstanz immer als reiner Entwicklungsverein bezeichnet. Wie kommt es, daß man bei Ihnen nicht selbst etwas entwickelt hat?

Wir haben auf einem verwandten Gebiet, nämlich bei der Schriftzeichenerkennung, langjährige Erfahrung. Wir beschäftigen uns seit fast zwanzig Jahren mit der optischen Zeichenerkennung und finden zur Spracherkennung enge Verwandtschaften, die über die Verwendung gemeinsamer Vokabeln wie Referenzmuster, Klassifikator und so weiter weit hinausgehen. Das heißt auch, daß eine umfangreiche wissenschaftliche Vorarbeit zu leisten ist, bevor man an die Realisierung solcher Produkte gehen kann. Es gibt nur wenige Unternehmen, die hier Erfahrungen gesammelt haben und TTI nimmt in diesem Kreis technisch zweifellos eine Spitzenstellung ein. Es hat sich nun für uns als außerordentlich vorteilhaft erwiesen, auf diesen Grundlagen der TTI, die wir uns sonst hätten erst erarbeiten müssen, aufzubauen.

Wir sind mit TTI nicht nur eine rein vertriebliche, sondern eine sehr viel engere Bindung eingegangen, die es uns ermöglicht, einen Know-how-Transfer zu beginnen, der sich vielleicht einmal dahingehend auswirken wird, daß wir gemeinsam Weiterentwicklung betreiben.

- Kommen wir jetzt zurück zur reinen Anwendungstechnik. Ihr System funktioniert nur mit einem trainierten Sprecher und das ist ohne Zweifel ein Nachteil, denn es fällt aus für Anwendungen mit mehreren Sprechern. Betrachten Sie Ihr System gleichwohl als einen ersten Schritt auf dem Gebiet der Spracherkennung, an den man anschließen sollte?

Man muß hier selektiv und nicht perfektionistisch denken. Es gibt viele Anwendungen mit nur einem oder wenigen wechselnden Sprechern. In vielen Anwendungen ist also absolute Sprecherunabhängigkeit gar nicht notwendig. Das Gerät bietet zudem die Möglichkeit, mehrere Sprecher, zehn, fünfzehn, zwanzig, mit dem Rechner oder dem Prozeß korrespondieren zu lassen. Unser Verfahren beruht ja auf Musterkennung und macht es ohne weiteres möglich, die Sprachmuster mehrerer Sprecher abzuspeichern, so daß mit einer Umschaltzeit die im Sekundenbereich liegt, sich auch eine größere Anzahl von Menschen gegenüber diesen Spracheingabegeräten äußern kann. Die absolute Sprecherunabhängigkeit ist ein Entwicklungsziel, an dem gearbeitet wird.

Wir haben daher auch Tischmikrofone parat, mit denen man sich an seinem Schreibtisch äußerst attraktiv ausstatten kann.

- Welche Erkennungsgenauigkeit erreichen Sie heute - und welche Fehlerraten können bei den von Ihnen genannten Anwendungen toleriert werden?

Die Genauigkeit ist größer als 99 Prozent; vorausgesetzt ist ein kooperatives Verhalten des Sprechers. Der Sprecher wird sich jedoch stets bemühen, verstanden zu werden, wie es auch bei einer Einzelwort-Information zwischen Menschen der Fall ist, wo Kontext zur Erhöhung der Verständlichkeit nicht herangezogen werden kann. Eine Erkennungsgenauigkeit von mehr als 99 Prozent ermöglicht die normale Benutzung für den Anwender. Da er zusätzlich auf seinen Fehler hingewiesen wird, kann bei der Wiederholung sofort die Korrektur erfolgen.

- Wieviel Prozent des gesamten DV-Inputs ist denn für tastaturunabhängige Eingabe geeignet?

Es gibt Anwendungsgebiete, bei denen die Eingabe über Sprache ein absoluter Vorteil gegenüber Tastatureingaben sein kann. Wir wissen andererseits daß die Spracheingabe Tastatureingaben nicht generell ablösen wird. Unter bestimmten Randbedingungen werden sich vielmehr Spracheingaben parallel zur Tastatur einbürgern. Wir sind gerade hier auf der Messe auf einige interessante Anwendungen gestoßen, bei denen die Benutzer definitiv nach einem Ersatz für Tastaturen rufen, so auf dem Gebiet der Kartografie und für die direkte Umsetzung von Fertigungszeichnungen in Steuerlochstreifen für NC-Werkzeugmaschinen. Wir wären schon sehr zufrieden wenn sich nur ein kleiner Teil der Tastaturen oder anderer Arten von Handbetätigung ersetzen ließe.

- Wo liegen derzeit die technischen Grenzen der Spracherkennung? Ist dies mehr ein Softwareproblem oder mehr ein Problem des Rechners, den man verwendet?

Eine Grenze ist zum Beispiel der direkt erkennbare Vokabelvorrat. Die Geräte,

die wir hier ausstellen, haben eine obere Grenze von etwa 370 einzeln erkennbaren Worten; die Erkennung besteht ja darin, daß die in einer Trainingsphase gesprochenen und als Muster in einem Speicher abgelegten Worte in einer Vergleichsphase erkannt und verifiziert werden. Es gibt viele Anwendungen, die definitiv nicht mehr als 100 Worte benötigen; für 300 Worte muß man schon spezielle Anwendungen suchen. Trotzdem ist man dabei - und wir sind dabei -, den direkt erkennbaren Wortschatz in die Gegend von tausend oder mehr zu bringen. Man kann aber auch mit dem Gerät, so wie es jetzt da ist, einen Wortschatz von vielen Hundert Begriffen dadurch überstreichen, daß man eine Auswahl- oder Menütechnik benutzt. Man kann sozusagen Untermusterdateien schaffen und sich durch bestimmte Codeworte in diese Unterdateien einschalten, wo einem dann wieder der ganze Vorrat von ungefähr 370 Worten zur Verfügung steht. Beispiel sind Eingaben bei Artikelbestellungen, wo man eine Auswahl zwischen Bekleidung, Schreibwaren, technischen Artikeln u.s.w. artikulieren kann, um so automatisch in die entsprechende Unterdatei zu kommen.

- Daß Sie dieses Spracherkennungssystem in Hannover präsentieren, beweist, daß die Computer Gesellschaft Konstanz das TR 440-Debakel gut überstanden hat. Läßt sich's im Hause Siemens aushalten - und was kann man von der CGK in naher Zukunft erwarten?

Zuerst einmal zu Ihrem Begriff 440-Debakel: Es ist doch wohl kein Debakel, wenn inzwischen mehr als vierzig dieser großen Rechnersysteme installiert sind, vorzugsweise an deutschen Universitäten und Forschungsinstituten installiert sind...

- . . . noch installiert sind. . .

. . . noch installiert sind, wobei sich die Ablösung dieser Rechner durch Siemens- Anlagen - wie wir hoffen - eine ganz natürliche Fortführung der Produkt-Politik ermöglicht. Zur zweiten Frage: Wir sind seit 1974 eine hundertprozentige Tochter von Siemens. Wir sind voll integriert, fühlen uns ausgesprochen wohl und haben aufgrund der Tatsache, daß ein Teil unseres Geschäfts darin besteht, Hard- und Software-Entwicklungen für Siemens durchzuführen, eine ganz enge technische Integration erreicht. Davon profitiert die Computer Gesellschaft Konstanz und es profitieren bestimmte Unternehmensbereiche unserer Muttergesellschaft, speziell der Unternehmensbereich Datenverarbeitung.

- Erwarten Sie denn jetzt spontane Abschlüsse auf der Messe?

Unsere durchaus optimistische Meinung bezüglich der Akzeptanz hat sich voll bestätigt. Wir werden wohl keine Abschlüsse auf der Messe selbst machen, es wird aber zweifellos im Anschluß an die Messe, aufgrund von ganz konkreten Kontakten, ein Geschäft in der von uns erhofften Größenordnung beginnen, das wir dann systematisch auszuweiten hoffen. Insbesondere auch deshalb, weil wir der Applikationsunterstützung großen Stellenwert einräumen werden und wir nicht nur an Siemens-Rechner und Siemens-Prozesse sondern an Rechner aller Hersteller und Prozesse in beliebigen Anwendungsbereichen über unsere genormten Schnittstellen anschließen können und werden.

- Wer ist eigentlich Ihr Ansprechpartner, der Blau- oder der Weißkittel?

Das kommt darauf an. Im Moment vielleicht mehr der Weißkittel, denn eine solche vollkommen neue Technik, verbunden mit der dahinterliegenden Philosophie, wird zuerst wohl von der sogenannten Kategorie der Decision-Makers eingeführt. Sowie der Bekanntheitsgrad der Spracherkennung zunimmt, werden auch andere Benutzerkreise sensitiv werden. Nach der Resonanz schon hier auf der Messe zu urteilen, könnten uns die Blaukittel demnächst noch zusätzliche Schützenhilfe bieten.

- Um eine möglichst geringe Fehlerrate zu erreichen, ist es erforderlich, das Mikrofon sehr dicht an den Mund heranzuführen, und just das geht nur mit einem Mikrofon, kombiniert mit Kopfhörer. Befürchten Sie nicht, daß Sie deshalb Kopfschmerzen wegen des Betriebsrats bekommen?

Das Tragen eines Kopfmikrofons ist nicht zwingend. Wir haben in Umgebungen, die nicht so geräuschbehaftet sind, wie ausgerechnet hier die Messe, auch normale Tischmikrofone in Gebrauch. Bei Büroeinsatz ist das auch zweifellos eine zu bevorzugende Ausstattung. Es gibt allerdings Anwendungen, in denen das Tragen eines Mikrofons Vorteile bietet. So zum Beispiel beim Einsatz in der Lagerverwaltung oder im Prüfwesen, bei denen die Übertragung der Sprache drahtlos an eine Zentrale erfolgt und wo es ganz zwangsläufig die einfachste Methode ist, das Mikrofon umgehängt im Raum umherzutragen.

Wir sind uns aber auch darüber im Klaren, daß es ein Akzeptanzproblem gäbe, wenn ein Kopfmikrofon die einzige Lösung für die Mikrofonbefestigung wäre.