Conversational Interfaces

Innovationsführer, Ökosysteme und Potentiale in der Mensch-Maschine-Schnittstelle?

Kommentar von Björn Böttcher

Conversational Interfaces bieten in vielen Bereich des Alltags und der Arbeitswelt eine Erleichterung in der Kommunikation. Der intuitive Zugang zu Daten und deren Verarbeitung wird durch die sprachliche Interaktion optimiert.

Am Anfang war das Wort

Sprache war von Anbeginn der Zeit eine wichtige Möglichkeit zur Verständigung mit anderen Artgenossen. Und selbst artübergreifende Kommunikation entdeckt man im Alltag. Denn mit den vierbeinigen Mitbewohnern redet man natürlich auch gerne. Wir haben technologisch ebenso eifrig versucht, die Sprache auf ein Medium zu bannen, um den Austausch von Informationen und Kunst dadurch über weite Entfernungen und in breiter Masse zugänglich zu machen. Wer erinnert sich nicht an Tonbänder, Schallplatten und Audiokassetten.

Mit Echo und Echo Dot gewinnt die Sprachsteuerung wieder an Bedeutung.
Foto: Amazon

Zugegeben, beinahe wäre eine Generation herangewachsen, die keines der besagten Medien mehr gekannt hätte, jedoch konnte diese Gefahr gebannt werden. Selbst die Kassetten erhalten wieder einen Auftrieb. Nach einer aktuellen Erhebung des Billboard Magazins gab es eine Absatzsteigerung von 74 Prozent in 2016. Dies zeigt, dass Technologien manchmal doch länger durchhalten oder wiederaufleben. Und auch ist dies ein Indiz dafür, dass Sprache und Gesang uns überall begleiten in unserem Leben. Wenn wir uns überlegen, wie viel Zeit ich mit dem Schreiben und Sie dann im Anschluss mit dem Lesen verbringen, dann ist dies in der Tat eine ineffiziente Form des Informationsaustauschs. Direkter und effizienter ginge dies über eine Tonspur.

Bots, Alexa und Co.

Was wurde zu Zeiten der USS Enterprise die Interaktion mit dem Computer bewundert. Der Protagonist musste nur das Aktivierungswort „Computer“ benutzen, um die Maschine dazu zu bewegen eine Handlung auszuführen oder eine Frage zu beantworten. Auch den Tee konnte man sich so zubereiten lassen - natürlich inklusive der Tasse.

Was früher wie Science-Fiction klang, ist in der Tat gar nicht mehr so weit weg. Ich kann in der Tat eine Tasse ausdrucken lassen und sicherlich auch eine Vorrichtung konstruieren, welche mir das Einschenken von Wasser und Tee selbst ermöglicht. Dies alles mit einer Sprachsteuerung zu versehen, ist auch möglich. Lediglich die Geschwindigkeit mit der ein Besatzungsmitglied des Raumschiffs dies umsetzen konnte, fehlt noch ein wenig.

Ermöglicht wird dies durch die technologische Evolution im Bereich des 3D-Drucks, des Machine Learnings, der Netzwerktechnologie und von IoT-Geräten. Die Sprachsteuerung oder vielmehr die Interaktion mit einem Interface durch das Medium Sprache, ist durch Siri (Apple) wieder in den Vordergrund gerückt. Populärer ist zurzeit jedoch Alexa, welche in dem Echo und Echo Dot Geräten aus dem Hause Amazon brav den Dienst verrichtet. Egal, ob Deutsch oder Englisch angesprochen und gefragt, die nette weibliche Stimme antwortet, sofern dies in ihren Möglichkeiten liegt.

Ökosysteme und die Innovationskraft

Doch wie weit sind die Möglichkeiten dieser Assistenten und der Conversational Interfaces? Nun die Stärke des Assistenten liegt in seinem Backend. Dies umfasst zum einen das Verständnis des gesprochenen Worts in Gänze und zum anderen ist der Kontext wichtig, um die korrekte Reaktion einleiten zu können. Ein Assistent wird umso mächtiger, je mehr Anschluss er bekommt. Damit ist das Ökosystem von enormer Bedeutung.

In den USA gab es im Januar 2017 bereits 6884 kategorisierte Skills für Alexa.
Foto: Crisp Research

Wenn man sich die aktuelle Untersuchung der Alexa Skills, so nennt man die Fähigkeiten, welche Sie bereitstellen kann, anschaut, dann fällt auf, dass es in den USA aktuell 6884 kategorisierte Skills gibt. In Deutschland sind es immerhin schon 507 dieser Skills. Eine genauere Betrachtung der Verteilung der Skills auf die Kategorien zeigt, dass in den USA die meisten Fähigkeiten aus den News (2203), Games, Trivia & Accessories (1826) und Education & Reference (1269) kommen. In Deutschland sind dies die Bereiche Neuheiten & Humor (56), Bildung und Nachschlagewerke (86), sowie Spiele, Quiz & Zubehör (103).

In Deutschland steigt die Anzahl der Skills für Alexa langsam aber sicher an.
Foto: Crisp Research

Diese jeweils drei Kategorien stellen ungefähr 50 Prozent der angebotenen Skills. Damit ist die treibende Kraft der Innovationen klar der Konsument. In seiner Rolle als Technik verliebter Mensch, interagiert man gerne mit neuen und lässt der Kreativität freien Lauf. Durch Technologien, wie Serverless Architekturen, sind auch schnelle neue eigene Skills mit ein wenig Programmieraufwand hinzugefügt. Dabei sprechen wir heutzutage nicht mehr von Monaten, sondern von Stunden.

Durch Technologien, wie Serverless Architekturen, sind auch schnelle neue eigene Skills mit ein wenig Programmieraufwand hinzugefügt, die Taktrate erhöht sich.
Foto: Crisp Research

Glauben Sie nicht? Doch in der Tat sind es vom Auspacken des Gerätes bis zur Erstellung eigener Skills nur ein paar Stunden. Vorausgesetzt man hat ein wenig Programmiererfahrung. Doch auch Templates können verwendet werden, um eigene Skills zu erstellen. Die Digitalisierung schlägt also mit brachialer Geschwindigkeit zu.

Mit diesem Wissen und der Erfahrung steigt dann natürlich auch der Erwartungsdruck, wenn es dann an den Arbeitsplatz geht. Wo im heimischen Umfeld Musik gehört oder die Heizung über den sprachgesteuerten Assistenten geregelt wird, soll auf Arbeit dann ein Ersatzteil bestellt oder ein Dokument im Workflow weiterbearbeitet werden können.

Was ebenso wichtig ist, wie die Integration möglichst vieler Schnittstellen, ist auch die Überschreitung von Unternehmensgrenzen. So wäre es sicherlich hilfreich, wenn Alexa auch googeln könnte, um die Verbreitung noch weiter voranzutreiben und die Fähigkeiten noch mehr an den Alltag des Konsumenten anzupassen. Eine wichtige Rolle werden daher gerade im Kontext der Conversational Interfaces noch integrierte Cloud Plattformen einnehmen, da diese die Bündelung von unterschiedlichsten Quellen ermöglichen.

Schwachstellen gibt es noch

Doch wie weit sind diese Systeme für den Einsatz im Unternehmen? Für ein freies Gespräch, wie zu Hause, ist die Zeit noch nicht reif. Hier würden dann alle durcheinander reden und die Assistenten den Überblick verlieren. Diese Missgeschicke passieren den Assistenten selbst aktuell noch im Austausch mit ihren Kollegen oder auch wenn der Fernseher oder das Radio etwas mitteilen und sich der Assistent angesprochen fühlt.

Dies hat zwei Hauptgründe. Die sprachlich an einen bestimmten Menschen konditionierten Assistenten, wie Siri, reagieren dann auch entsprechend meist nur auf diesen. Dies wäre am Arbeitsplatz von Vorteil bedingt jedoch ein Gerät pro Mitarbeiter. Auf der anderen Seite hören die Assistenten, die nicht auf eine bestimmte Stimmte ausgerichtet sind, dann auf jeden - also auch auf Sprache aus anderen Quellen, wie eben den Broadcastquellen TV und Radio. Dies wäre in einem Großraumbüro also auch nicht funktional.

Zwar versuchen die modernen Konsumentenprodukte hier eine Ortung im Raum des Sprechenden abzubilden und dann eine effiziente und koordinierte Abarbeitung der Interaktion. Jedoch funktioniert dies nur, wenn ein Individuum diese Anfrage formuliert. Im Büroumfeld ist dies schwer umzusetzen. Auch fehlen Mehrbenutzerprofile, um Geräte dann für unterschiedliche Aufgabenfelder von unterschiedlichen Angestellten nutzen zu lassen. Dies betrifft allerdings auch noch einige mobile Betriebssysteme, wie beispielsweise iOS.

Eine weitere Hürde ist die Geräuschkulisse im Einsatzgebiet. Immer wenn laute Maschinen oder andere Geräuschquellen in der Nähe sind, dann wird es schwer diese Assistenten zum Leben zu erwecken. Einen Ansatz, der dies beheben soll, verfolgt aktuell Apple. Da Siri bereits auf eine einzelne Stimme und Sprache optimiert ist, muss nur noch die Interaktion in lauten Umgebungen behoben werden. Ein erster Schritt sind hier die AirPods, also die kabellosen Bluetooth-Kopfhörer, welche zur Interaktion mit dem Assistenten geeignet sind.

Open Source und IoT

Es muss jedoch auch nicht immer ein kommerzielles Produkt sein. Durch den technologischen Fortschritt und vielen Open Source Projekten haben wir die Möglichkeit uns eine Alexa, Cortana, Siri oder Ok Google selbst zu bauen. Ganz nach unseren Vorstellungen und für spezielle Einsatzbereiche. Man kombiniere Machine Learning as a Service Angebote mit Physical Computing Plattformen à la Raspberry Pi, Arduino oder Intel Edison und füge noch eine Serverless Plattform hinzu - et voilà fertig ist das eigene Conversational Interface. Diese haben dann die Möglichkeit für einen bestimmten Use Case angepasst zu werden, wie beispielsweise:

Fertigung
Behörden
Kliniken
Call Center
ÖPNV Fahrzeugen
Werkstätten
Supermärkten
Großküchen
etc.

Der Vorteil liegt klar in der Kontrolle der Hardware und der Software, sowie der Spezialisierung der Assistenten auf ein bestimmtes Einsatzgebiet hin.

Empfehlung: Spieltrieb entdecken

Die Integration von Conversational Interfaces in IoT-Produkte und den Arbeitsalltag ist eine lohnende Investition, welche technische keine größere Herausforderung per se mehr darstellt. Daher sollten alle Unternehmen, die noch viel lesen und schreiben zumindest mal den Versuch wagen, hier auf Conversational Interfaces zu setzen. Wenn es dann doch noch nicht in den Arbeitsalltag passt, dann hat man wenigstens ein Skill-Gap mehr geschlossen. Eine detailliertere Übersicht zu den einzelnen Anbietern von Chatbot-Plattformen hat Ihnen mein Kollege Moritz Strube erstellt. (mb)