Konversation mit dem Computer Tools sollen Spracherkennung 1995 mehr Geltung verschaffen

13.01.1995

MUENCHEN (ue) - PC-basierte Systeme zur Spracherkennung haben bisher nur Nischenplaetze erobern koennen, etwa bei Aerzten oder Juristen. Dennoch war unter den Herstellern bereits auf den Comdex-Messen des vergangenen Jahres eine Aufbruchstimmung zu spueren, ein Trend, der sich nach Expertenmeinung 1995 fortsetzt. Mit von der Partie sind neben kleinen Start-up-Firmen auch alte Hasen der Buerokommunikation wie IBM und Philips.

Die Konversation mit dem Computer, wie sie uns in Science-Fiction- Filmen vorgefuehrt wird, bleibt vorerst noch Zukunftsmusik. Selbst eine geuebte Schreibkraft werden die Systeme zur Spracherkennung (Speech Recognition) mittelfristig nicht ersetzen koennen. Das gesteckte Ziel lautet derzeit, dass ein Produkt auf dem PC installiert wird, um dann kontinuierlich und direkt in Anwendungen wie Textverarbeitung oder Tabellenkalkulation sprechen zu koennen, heisst es bei Philips.

Die in Wien ansaessige Konzerntochter Philips Dictation Systems stellte im vergangenen Jahr auf der Herbst-Comdex erste Module der Produktreihe "Speech Note" (Diktier-System) und "Speech Magic" (Paket zur kontinuierlichen Spracherkennung) vor. Inzwischen werden erste Beta-Versionen verschickt, mit einer Freigabe im deutschsprachigen Raum rechnen die Oesterreicher etwa zur Jahresmitte.

Das System besteht aus Mikrophon, Analog-Digital-Wandlerkarte und Windows-Software. Ergaenzt wird die Produktfamilie durch das Entwicklungs-Tool

"Speech Pro". VARs sind damit in der Lage, branchenspezifisches Vokabular fuer vertikale Maerkte zu integrieren. Das erste Release der Speech-Reihe arbeitet allerdings noch mit einem Batch-artigen Verfahren, bei dem nicht direkt in eine Windows-Anwendung gesprochen werden kann: Der Text wird per Mikrophon aufgezeichnet und anschliessend in Schrift (Rich Text Format) umgewandelt. Danach tritt ein Korrektur-Editor in Aktion, wobei der Rechner den Text vorliest und der Cursor Wort fuer Wort mitlaeuft. Nach diesen Arbeitsschritten laesst sich der Text in beliebige Windows-Programme ueberspielen.

Mit Erfolg rechnet Philips vor allem deshalb, weil das System in der Lage ist, natuerlich gesprochene Texte zu verarbeiten. Diskrete Systeme dagegen erzwingen Pausen, in denen jeweils Anfang und Ende der einzelnen Woerter identifiziert werden. Nur so koennen die meisten Verfahren den Unterschied zwischen "dort" und "Mund" oder "Dortmund" erfassen.

Es gibt allerdings Ausnahmen: Ein guenstiges, diskretes Spracherkennungsprodukt, das in der Lage ist, Woerter auch im Kontext zu erkennen, kommt beispielsweise von IBM.

Bereits Anfang letzten Jahres hat Big Blue in den USA mit der Auslieferung des OS/2-basierten "IBM Personal Dictation System" (IPDS) begonnen. Das Tool, zum Gesamtpreis von etwa 2500 Mark auch in Deutschland erhaeltlich, wurde nach 21 Jahren Forschungsarbeit urspruenglich fuer den Mainframe, spaeter fuer die RS/6000-Plattform entwickelt. Erst kuerzlich hat IBM das PC-System in "Voice Type Dictation" umbenannt. Die Namensaenderung ging einher mit der Vorstellung eines Windows-Pendants, dessen Anpassung an die deutsche Sprache allerdings noch einige Zeit dauern wird. Ein Audio-Board nach PCMCIA-Standard soll das System auch mobilen Anwendern mit IBM-Notebooks zugaenglich machen.

Das inzwischen von zahlreichen Testern als weitgehend stabiles System gelobte Voice Type Dictation verfuegt ueber einen Grundwortschatz von etwa 32000 Eintraegen, die Erkennungsrate liegt laut Hersteller zwischen 70 und 100 Woertern pro Minute. Als Besonderheit gilt, dass sich das Produkt auf den Dialekt und die Sprachmuster des Anwenders trainieren laesst. Dazu muessen waehrend einer etwa neunzigminuetigen Startphase spezielle Texte vorgelesen werden, die das System auf Akzente und Betonungen einstimmen. Auch bei den anschliessend gesprochenen Texten lernt die Software mit. Die Erkennungsrate soll bei 97 Prozent liegen. Grundlage des Verfahrens ist die Trigram-Technologie, die mit Wort-Tripeln arbeitet und die Wahrscheinlichkeit einer Kombination von drei Woertern analysiert. Auf diese Weise werden Sonderfaelle wie "fiel" und "viel" aus dem Kontext heraus ermittelt.

Plaene weitgehend auf Eis gelegt

Grosses in Richtung Spracherkennung hatte IBM laut CW- Schwesterpublikation "Computerworld" auch in Sachen Power-PC vor. Die Nutzung der Floating-Point-Unit dieser Plattform verspricht eine hohe Performance fuer datenintensive Anwendungen wie Grafik und Sprache. Angedacht war eine kontinuierliche Spracherkennung, eine Kommando- und Kontrollkomponente, die als Layer auf dem Betriebssystem liegt und gesprochene Befehle koordiniert, sowie intelligente Assistenten (Agents), die beispielsweise eine gewuenschte Telefonnummer aus der Datenbank suchen und den Waehlvorgang automatisch starten. Den Prototypen dieser Technik konnten Interessenten bereits auf der Herbst-Comdex 1993 bestaunen: Ein unter AIX laufendes Modell des Power-PCs begruesste den Anwender, antwortete auf ein noch eng begrenztes Fragenspektrum und befolgte einige Befehle, etwa spezielle Datenbankabfragen.

Mittlerweile ist es um die Visionen des Branchenriesen jedoch ruhig geworden. Eine sprachgesteuerte Oberflaeche soll zunaechst nur in Teilen auf dem Power-PC realisiert werden. Gruende fuer IBMs Zurueckhaltung fuehren IDC-Analysten auf hausinterne Debatten zurueck. Diskutiert wird beispielsweise darueber, wie man sich von Konkurrenzprodukten abheben koennte und ob weiterhin eigene Tools entwickelt oder fremde uebernommen werden sollen.

Namhafte Konkurrenz zu IBMs Voice Type kommt von der amerikanischen Dragon Systems Inc. aus Newton, Massachusetts. Die Application-Group von Novell will in den USA in Kuerze ein Bundle von "Dragon Dictate" zusammen mit der Textverarbeitung "Wordperfect 6.1" und der Suite "Perfect Office 3.0" auf CD-ROM ausliefern. Mit dem Add-on, das ebenfalls Pausen zwischen einzelnen Woertern verlangt, koennen Anwender nicht nur Saetze diktieren sondern auch Programmbefehle sprechen, die bislang per Mausklick und Tastatur aktiviert wurden. Die Umsetzung der englischsprachigen Version in ein deutsches Release ist zwar vorgesehen, ein Zeitplan dazu steht aber noch aus.

Das Bundle von Dragon Dictate und Perfect Office ist allerdings nur ein Bereich, in dem Novell den Einsatz von Sprache im DV- Spektrum nutzt. Eine spezielle Entwicklung fuer die Automobilindustrie erfolgt derzeit ueber die Netware Embedded System Technology (Nest), ein Verfahren zur Ansteuerung von Peripheriegeraeten, das einen aehnlichen Ansatz wie "Microsoft at Work" verfolgt. Innerhalb der Kfz-Fertigung soll ueber Nest eine Loesung entstehen, die neben der Maschinensteuerung auch die muendliche Eingabe einer Prozessdokumentation erlaubt.

Unklar ist noch, ob Microsoft selbst ein Interface zur Spracherkennung entwickeln wird. Das seit einiger Zeit ausgelieferte "Sound System 2.0" basiert zwar ebenfalls auf der lizenzierten Dragon-Technik, ist aber mit einem Umfang von etwa 100 Kommandos ausschliesslich auf die PC-Steuerung zugeschnitten. Neue Produkte erwarten Branchenkenner erst kurz nach Verfuegbarkeit von Windows 95. Das mit viel Spannung erwartete Betriebssystem soll mit DSP-Karten (Digital Signal Processing) wie etwa den neuen Voice-Modems kommunizieren koennen. Microsoft-Kenner sprechen von einer Windows-95-Applikation, die unter dem Arbeitstitel "Tazz" den PC zur zentralen Kommunikationsplattform avancieren laesst. Darin eingeschlossen ist eine Software-Konsole rund um das Telefon, mit deren Hilfe sich beispielsweise Anrufe taetigen, beantworten oder umleiten lassen.

Ein Verfahren, bei dem eingetippter Text in Sprache umgewandelt wird, bietet Novell in den USA zusammen mit dem Groupwise-Server an: Mit der Loesung lassen sich E-Mails auf Abruf des Empfaengers vom Rechner vorlesen. Auch in der Mainstreet-Produktreihe will Novell diesen Weg beschreiten und Kinderprogramme offerieren, die eingegebene Woerter akustisch wiedergeben koennen.

Novell sieht in der Entwicklung sprachgestuetzter Systeme offenbar einen wichtigen Zukunftsmarkt. Der LAN-Spezialist geht davon aus, dass sich auf der diesjaehrigen Herbst-Comdex zahlreiche Hersteller mit neuen Produkten diesem Thema widmen werden. Dabei soll es sich noch weitgehend um Prototypen handeln, Eile ist also nicht angesagt: Der Markt fuer die bislang verfuegbaren Produkte beschraenkt sich auf wenige professionelle Anwendungen; entsprechend niedrig ist der Umsatz. Allerdings hat die Portierung der Systeme auf den PC und der damit verbundene Preissturz auf unter 1000 Dollar bereits fuer einen kraeftigen Aufschwung gesorgt, heisst es bei der Gartner Group.

Die amerikanische Voice Information Associates rechnet mit einem Umsatzwachstum von knapp 160 Millionen Dollar im Jahr 1992 auf rund 650 Millionen Dollar fuer 1997.

Um fuer den grossen Durchbruch gewappnet zu sein, haben sich die Kontrahenten IBM, Philips, Novell und Dragon Systems an einen Tisch gesetzt.

Unter der Bezeichnung "Speech Recognition API" (SRAPI) soll eine gemeinsame Schnittstelle geschaffen werden, an die Drittanbieter mit ihren Entwicklungen anknuepfen koennen. Mit ersten Ergebnissen rechnet Philips ebenfalls zur Herbst-Comdex.