Naturally Speaking, Viavoice, Voice Xpress und Freespeech

Naturally Speaking, Viavoice, Voice Xpress und Freespeech Spracherkennung: Vier populäre Pakete im Vergleich

15.01.1999
MÜNCHEN (CW) - Nicht immer, aber immer öfter tauschen Anwender für die Eingabe von Texten oder Systembefehlen die Tastatur gegen ein Mikrofon aus. In einem Test, in dem die vier gängigsten Spracherkennungspakete auf Herz und Nieren geprüft wurden, zeigten sich deutliche Qualitätsunterschiede.

Das Resümee vorweg: Der einzige Proband, der den Marketing- Versprechen der Hersteller nahezu ganz gerecht werden konnte, heißt "Dragon Naturally Speaking Preferred". Das Paket zeichnet sich einem Bericht der CW-Schwesterpublikation "PC-World" zufolge im Unterschied zu den Konkurrenzprodukten durch eine Erkennungsgenauigkeit von rund 95 Prozent aus. Falsch identifizierte Wörter oder Textpassagen lassen sich mit Hilfe des gesprochenen Befehls "lösche das" rückgängig machen. Das funktioniert aber nicht immer: Oft mußte der Tester auf den Korrekturmodus per Mikrofon verzichten und statt dessen die Maus zu Hilfe nehmen.

Das Unternehmen aus Newton, Massachusetts, stellt Anwendern grundsätzlich zwei Möglichkeiten der Texteingabe zur Verfügung: Diktieren in ein spezielles Textfenster der Applikation oder in bestehende Standardanwendungen wie Word oder Excel. Das Add-on für Word funktioniert allerdings lediglich mit der aktuellsten Word- Version 97, nicht mit Word 95. Während sich die Eingabe kurzer E- Mails relativ einfach gestaltet, erweist sich der Umgang mit Excel-Tabellen als ungleich komplizierter. Die Zahl 732000 beispielsweise muß der Anwender "Sieben-drei-zwei-komma-null-null- null" aussprechen. Auch die Optionen zur Steuerung von Windows- Fenstern mit Hilfe der Sprache lassen zu wünschen übrig. Fazit: Während sich Naturally Speaking Preferred als bestes Produkt für die Texteingabe behauptet, fal- len Navigationsmöglichkeiten, Korrekturoptionen und Fähigkeiten zur Textformatierung dürftig aus.

Spracherkennung einmal anders

Ganz anders als das Dragon-Produkt zeigt IBMs "Viavoice Executive Edition" in Sachen Navigation Bestleistungen. Das Paket von Big Blue läßt sich laut Tester reibungslos für die akustische Steuerung des PCs beziehungsweise von Windows 95/98 nutzen. Dafür hinkt Viavoice in puncto Spracherkennung hinter der Dragon- Software her. Während Texte aus ganzen Worten für Viavoice kein Problem darstellen, scheitert das Paket allzuoft an Akronymen. IBMs Produkt ermöglicht es, relativ simpel zwischen herkömmlichem Diktieren, Korrekturmodus und Navigationskommandos zu wechseln. Wie bei Naturally Speaking Preferred lassen sich Texte in ein spezielles Applikationsfenster oder aber in übliche Windows- Applikationen diktieren. Wesentlich einfacher als mit dem Dragon- Produkt gestaltete sich die Eingabe von Zahlen in Excel- Spreadsheets.

Erkennungsgenauigkeit variiert stark

Auf den ersten Blick gleicht Lernout & Hauspies "Voice Xpress Professional" dem Spracherkennungsprodukt von Dragon Systems. Doch während sich das Paket der Belgier aus Iepen vor allem mit Zahlen zurechtfindet und sich nahtlos in sämtliche Office-Anwendungen einbinden läßt, kann es mit der hohen Erkennungsgenauigkeit von Dragon Naturally Speaking Preferred nicht mithalten.

Nicht selten registrierte das Paket gesprochene Wörter oder ganze Passagen falsch. Das hängt mit dem eher geringen Wortschatz zusammen: Voice Xpress wird mit einem Vokabular von 30 000 Wörtern geliefert, die Konkurrenzprodukte beherrschen etwa doppelt so viele Wörter.

Das Training von Voice Xpress erwies sich darüber hinaus als das längste aller Pakete. Etwa 50 Minuten benötigten die Tester, um das System mit den insgesamt 230 Bildschirmseiten Text an die Stimme des Redners zu gewöhnen.

Als problematisch zeigte sich ferner die Eingabe von Desktop- Kommandos und die Navigation in Windows-Fenstern mit Befehlen wie "Gehe an das Ende des Dokuments". Zu den positiven Eigenschaften des Produkts von L&H zählt die Korrekturfähigkeit. Anders als bei den Konkurrenzprodukten, die bei der direkten Texteingabe in Word oder Excel teilweise immense Ressourcen verschlingen, gibt es bei der Arbeit mit Voice Xpress und Office 97 keinerlei Verzögerungen.

Als einziger der vier Anbieter bietet Philips interessierten Anwendern die Möglichkeit, das Paket vor dem Kauf zu testen. Unter http://www.freespeech98.com können User eine kostenlose Version herunterladen. Freespeech 98 stellt viele individuelle Features zur Verfügung. Dazu gehört das typische Wordpad-ähnliche Diktierfenster. Ferner lassen sich Texte wie bei den Wettbewerbern direkt in bestehende Applikationen diktieren. Ebenso ist es möglich, den PC durch Sprachkommandos zu steuern. Als mangelhaft erwies sich die bei anderen Produkten passable Funktion, per Sprachbefehlen zwischen dem Diktier-, Befehls- und Schlafmodus umzuschalten.

Einen unbefriedigenden Eindruck hinterließ Freespeech des weiteren bezüglich der Erkennungsgenauigkeit. Während das Werkzeug mit gewöhnlichen Geschäftstexten relativ gut zurechtkam, führte die Eingabe von etwas individuelleren Texten zu einer mittleren Katastrophe. Zu guter Letzt fehlt es dem Werkzeug an einem dringend erforderlichen Headset, bestehend aus Mikrofon und Kopfhörer, das sämtlichen Konkurrenzprodukt beigelegt wird.

Die wichtigsten Ergebnisse

Sämtliche getesteten Spracherkennungsprodukte mit Ausnahme von Philips Freespeech 98 erlauben die Einrichtung mehrerer Sprachprofile für unterschiedliche Anwender. In puncto Erkennungsgenauigkeit konnte keines der Pakete Dragon Naturally Speaking Preferred das Wasser reichen. Das PC-Werkzeug wartete mit einer Akkuratheit von 95 Prozent auf, während IBMs Viavoce 98 Executive Edition, Freespeech 98 sowie L&H Voice Xpress Pro allesamt die 90-Prozent-Hürde nicht meistern konnten.

Das von sämtlichen Anbietern versprochene "Installieren und Loslegen" funktionierte in keinem Fall. Sämtliche Testkandidaten erfordern ein ausgiebiges Training: An einer zehn- bis 50minütigen Einführung der Sprechgewohnheit des Redners kommt keines der Produkte vorbei.Dabei muß der Benutzer einen vom jeweiligen System vorgegebenen Text vortragen. Die Texteingabe in ein nichttrainiertes System endet in einer Erkennungsgenauigkeit von weniger als 50 Prozent. Diese bescheidene Quote gilt für sämtliche der getesteten Produkte. Eine große Rolle für den Erfolg beim Einsatz von Spracherkennungs-Tools spielt nach wie vor das Handwerkszeug. Während sämtliche Hersteller außer Philips ein sogenanntes Headset, bestehend aus Kopfhörer und integriertem Mikrofon mitliefern, handelt es sich dabei ausnahmslos um ein Gerät für die ersten Schritte. Da die Erkennungsgenauigkeit der einzelnen Produkte jedoch stark vom Mikrofon und der Entfernung des Redners zum Eingabemedium abhängt, sollte ein Kauf eines höherwertigen Headsets für den professionellen Einsatz unbedingt in Erwägung gezogen werden.

Als Systembasis für alle getesteten Pakete diente ein Pentium-II- Rechner mit 333 Megahertz Prozessorleistung, 64 MB Arbeitsspeicher sowie einer schnellen Ultra-SCSI-Festplatte. Darüber hinaus enthielt der Testrechner eine Soundkarte "Soundblaster AWE 64 Gold".