Diktiersysteme auf dem Weg ins Alltagsgeschäft

Trend Spracherkennung: "Deutschland hat aufgeholt"

03.07.1998

CW: Sie sprechen im Zusammenhang mit Ihrem neuen Paradeprodukt "Viavoice Executive" in erster Linie den Unternehmenskunden an. Ist der Markt für Privatanwender gesättigt, oder weshalb richten Sie sich neu aus?

Osborne: Das ist keine Neuausrichtung. Vielmehr bieten wir künftig ein Executive-Paket für Unternehmen und ein Home-Paket für den privaten Bereich an.

CW: Glauben Sie nicht, daß ein so Ressourcen-fressendes Produkt wie Viavoice - die IBM setzt einen 166-MHz-Pentium-PC voraus - in den meisten Unternehmen gar nicht einsetzbar ist? In vielen deutschen Unternehmen ist dieser Ausstattungsgrad noch nicht erreicht.

Osborne: Betrachten Sie doch nur einmal den Markt für neue Systeme. Sämtliche modernen Rechner werden sowohl in den USA als auch in Deutschland mit mindestens einem 266-MHz-Prozessor ausgestattet. Auf solchen PCs läuft unser Produkt einwandfrei.

CW: Ja, aber was passiert mit den Firmen, die nicht bereit sind, kurzerhand 2000 PCs auszutauschen?

Osborne: Wir entwickeln derzeit eine Lösung, die sich auch auf Thin Clients einsetzen läßt. Das Produkt wird wahrscheinlich nächstes Jahr auf den Markt kommen und sowohl auf Thin Clients als auch auf älteren PCs laufen.

CW: Das Internet ist momentan das populärste Thema der DV. Welche Pläne existieren bei der IBM, um Spracherkennung mit dem World Wide Web zu vereinen?

Osborne: Der größte Vorteil der Spracherkennung liegt darin, daß Menschen, die mit dem Computer nichts zu tun haben wollen oder müssen, trotzdem sämtliche Informationen aus dem Internet und anderen Quellen erhalten können. Dabei denke ich an Informations-Kioske, die in aller Welt aufgestellt werden können und Auskünfte geben. Beispiel Datenbankabfrage: Wir tüfteln momentan an einem Aktien-Informations-System. Damit wollen wir Aktionären ermöglichen, Anteilsscheine am Telefon zu kaufen, verkaufen, Kurse abzufragen und so weiter.

Das System im Hintergrund versteht die Sprache und holt die benötigten Informationen aus dem Internet. Gleiches gilt für ein neues Reisebuchungssystem, das wir derzeit entwickeln. Während eine Reisebüromitarbeiterin heute unzählige Befehle eingeben muß, um passende Flüge ausfindig zu machen, kann unsere Lösung die gewünschten Routen innerhalb von Sekunden anzeigen - und das nach unterschiedlichsten Kriterien. Dies funktioniert entweder per Telefon oder via Mikrofon und sogar gekoppelt mit dem Web-Suchservice Yahoo. Das Tollste dabei ist, daß das System komplette Sätze versteht.

CW: In den USA mögen sich Spracherkennungsprodukte bereits durchgesetzt haben. In Deutschland und anderen europäischen Ländern allerdings begegnen Anwender Ihrem Produkt noch sehr skeptisch. Weshalb?

Osborne: Die Käufer in den USA sind risikofreudiger, was neue Technologien betrifft.

Die amerikanische Presse, Analysten und selbst Anwender haben gemerkt, daß Spracherkennung keine Utopie mehr ist - sie funktioniert. Andere Länder werden früher oder später auf diesen Zug aufspringen. Erstaunlicherweise aber sind gerade in Deutschland Unternehmen der neuen Technologie gegenüber aufgeschlossener als private Endanwender.

CW: Für den Erfolg der DV-gestützten Sprachtechnologie benötigt die IBM potente Partner, die Speziallösungen für vertikale Märkte entwickeln. In den USA mangelt es Ihnen kaum an solchen Allianzen, hierzulande dagegen haben Sie damit Probleme. Weshalb?

Osborne: Es stimmt, in Deutschland ist die Partnersuche weitaus schwieriger als in den USA. Aber Packard-Bell beispielsweise hat unser Spracherkennungsprodukt als erstes in Europa auf seinen Rechnern vorinstalliert. Trotzdem muß ich Ihnen beipflichten: Die Akzeptanz in Europa läßt noch zu wünschen übrig.

CW: Wie würden Sie die technologische Diskrepanz zwischen den USA und Deutschland beschreiben?

Osborne: Noch vor kurzem lag Deutschland zwei Jahre hinter den USA zurück. Doch Ihr Land hat mächtig aufgeholt.

CW: Mit Ihrem neuesten Diktierprodukt Viavoice Executive konzentriert sich die IBM ausschließlich auf Windows. Von OS/2 hingegen ist keine Rede mehr. Fehlt das Interesse?

Osborne: Richtig, wir bieten kein Produkt für OS/2 an. OS/2 ist kein Consumer-orientiertes Betriebssystem. Es eignet sich mehr für das Internet- und Java-Business. Wir haben ein Java-Sprach-API (API = Application Programming Interface, Anm. d. Red.) für derartige Zwecke.

CW: Sie unterstützen mit Viavoice die direkte Spracherkennung in Lotus' "Wordpro" sowie Microsofts "Word". Wann bieten Sie den längst fälligen Support für Star Divisions "Star Office"?

Osborne: Wer ist Star Division?

CW: Das ist ein Hamburger Hersteller, dem die IBM vor rund zwei Jahren in einer Partnerschaft intensive Unterstützung für sein OS/2-Büropaket "Star Office" versprochen hatte.

Osborne: Darüber bin ich nicht informiert.

CW: Mit Viavoice 98 führen Sie Topics ein. Wozu?

Osborne: Topics sind bestimmte Einsatzbereiche. Ärzte, Rechtsanwälte, Journalisten und andere Berufsgruppen können auf einen speziellen Wortschatz zurückgreifen und so ihr Vokabular erweitern.

CW: Noch immer erfordert Spracherkennung ein ausgiebiges Software-Training. Wird sich das bald erübrigen?

Osborne: Wir arbeiten daran. Aber ich glaube, das Training wird auch künftig nötig sein. Die Maschine muß zunächst vorbereitet werden. Ein zehnminütiges Training setzen wir voraus.

CW: Zehn Minuten? Das funktioniert nicht. Selbst nach 30minütigem Training kann im Grunde genommen nicht von einem brauchbaren Diktiersystem gesprochen werden. Erst nach mehreren Stunden intensiver Arbeit ist die Leistung nach unseren Erfahrungen akzeptabel.

Osborne: Nun, der Wortschatz der Berufsgruppe Journalisten ist auch einer der umfangreichsten. Aber wir arbeiten daran.

CW: Im Zusammenhang mit der Spracherkennung schwärmen Sie oft vom PC ohne Tastatur und Maus. Ist das realistisch?

Osborne: Unsere Leute im Labor forschen in unterschiedlichste Richtungen. Bald werden Videokameras als Eingabemedien dienen. Das System erkennt dann an Gesichtszügen oder Handbewegungen, was es zu tun hat, und agiert - zum Teil sogar ohne konkreten Befehl des Anwenders. Das ist jedoch noch Zukunftsmusik. Was allerdings ganz sicher im nächsten Jahr Einzug halten wird, ist die Sprecheridentifikation. Dabei identifiziert ein System die Stimme seines Besitzers - egal was er sagt, ob er erkältet ist oder sich die Nase zuhält.

CW: Ist das nicht sehr unsicher?

Osborne: Aber Sie geben Ihre Kreditkarteninformationen doch auch über das Telefon bekannt?

CW: Nein.

Osborne: Wir in den USA tun das permanent. Es gibt Möglichkeiten, das sicher zu machen.

CW: Skeptiker behaupten, Unbefugte könnten einfach die Stimme des autorisierten Benutzers auf Band aufnehmen, um sie anschließend dem System vorzuspielen und so unberechtigten Zugang zu bekommen. Stimmt das?

Osborne: Das wäre mir neu. Wenn das wirklich so ist, wäre das sehr gefährlich. Ich kann das aber nicht glauben. Andererseits werden mehrere Sicherheitsmechanismen greifen, wie ein zusätzliches Paßwort.

CW: Womit wir wieder am Anfang wären. Themenwechsel: Glauben Sie an das sprechende Automobil?

Osborne: Das kommt ganz sicher. Die Frage ist nur, wann, wie und in welcher Form. In zwei bis vier Jahren werden wir brauchbare Systeme haben.