Aus Prosa wird Profit

13.10.2005
Von Ulrich Reincke
Lesen und lesen lassen: Text-Mining-Lösungen erschließen mit Hilfe statistischer und semantischer Verfahren den Inhalt von E-Mails und anderen Textdokumenten.
Nach der Vorverarbeitung erfolgt die eigentliche semantische Analyse mit Hilfe komplexer statistischer Verfahren. Die Ergebnisse lassen sich in vielfältiger Form aufbereiten.
Nach der Vorverarbeitung erfolgt die eigentliche semantische Analyse mit Hilfe komplexer statistischer Verfahren. Die Ergebnisse lassen sich in vielfältiger Form aufbereiten.

Text-Mining-Lösungen erkennen von selbst, worum es in einer E-Mail oder anderen Texten geht, ganz gleich, wie sich der Verfasser ausgedrückt hat. Damit lässt Text Mining gängige Verfahren für das Klassifizieren von Texten, wie sie etwa in einige Dokumenten-Management-Anwendungen integriert sind, weit hinter sich: Diese Lösungen können nur Textdaten katalogisieren und sie dann über eine Stichwortsuche zum Abruf bereitstellen. Die ausgereiften unter diesen Systemen erweitern den Prozess, indem sie zusätzlich die Metadaten der Dokumente nutzen. Dabei hängt allerdings die Qualität der Klassifikation eines Dokumentes immer von dem Benutzer ab, der die Metadaten in das Dokumenten-Management-System eingepflegt hat - ein großer Unsicherheitsfaktor.

Hier lesen Sie …

• warum Text Mining mehr ist als Stichwort- oder Metadatensuche;

• wie sich E-Mail-Korrespondenz automatisch auswerten lässt;

• wie Honda und der Heinrich-Bauer-Verlag solche Methoden einsetzen.

Im Gegensatz dazu bieten Text-Mining-Verfahren einen ressourcensparenden schnellen Automatismus, dessen Qualität einerseits weitgehend unabhängig vom Nutzer garantiert ist. Andererseits sind die Lösungen flexibel genug, innerhalb kürzester Zeit auch neue Themen zu erkennen: Diese Analyseinstrumente berücksichtigen alle relevanten Wortkombinationen des gesamten Dokumententextes, anstatt sich auf vorab definierte Stichwörter oder Metainformationen zu beschränken. Sie sind in der Lage, durch Stopp- und Startlisten das Fachvokabular zu steuern, Wörter zu Wortstämmen zu reduzieren (Beispiel: "gerochen" und "roch" werden dem Infinitiv "riechen" zugeordnet), Entitäten zu extrahieren (etwa Produkt und Firmennamen oder Adressen) und signifikante Wortkompositionen zu erkennen (Beispiel "Text-Mining-Lösung" oder "die deutsche Nationalelf").

Darüber hinaus können Experten mit Text Mining Cluster- und/ oder Klassifikationsmodelle bilden: So sind Unternehmen beispielsweise mit Hilfe statistisch gestützter Prognose-Instrumente in der Lage, die Problemkategorie einer neu hereinkommenden Beschwerde-E-Mail vorhersagen.

Ein zentraler Anwendungsbereich von Text Mining ist das inhaltliche Strukturieren und Erschließen bereits vorhandener Kundenkorrespondenz nach unbekannten "Hot Spots" durch Clustering. Dokumente, die aufgrund ihrer Wortkonzepte als ähnlich erkannt werden, fasst die Lösung in Gruppen zusammen und benennt für jede Gruppe die Begriffe, die sie am besten beschreiben. Auf diese Weise erschließt Text Mining selbständig neue relevante Themenkomplexe. Beispiel Qualitäts-Management: Der Autohersteller Honda nutzt in den USA ein Text-Mining-System, um Kunden-E-Mails, aber auch Call-Center-Aufzeichnungen und Werkstattberichte im Hinblick auf mögliche Qualitätsmängel auszuwerten. Entsteht dabei eine größere Sammlung von Texten, die eine bislang nicht beachtete Fehlerkonstellation verbindet, oder nimmt die Zahl der Dokumente eines Clusters mit dem Oberbegriff "Schaden" rasch zu, so deutet dies darauf hin, dass ein Qualitätsproblem vorliegt.

Qualitäts-Management

Die verantwortlichen Mitarbeiter können die Informationen aus den vorliegenden Meldungen dann mit numerischen Daten wie Vertriebszahlen, Zulieferdaten oder Ersatzteilcodierungen verknüpfen. Auf diese Weise lässt sich ermitteln, wo, wann und unter welchen Bedingungen bestimmte Fehler auftreten. So sind Qualitäts-Manager in der Lage, die Wurzel komplexer Fehlerkonstellationen zu entdecken.

Ein anderes Text-Mining-Verfahren ist das selbsttätige Zuordnen von neuen Dokumenten zu definierten Gruppen. Auf Basis einer vorab festgelegten Sortierung von Texten zu Klassen "lernt" die Text-Mining-Lösung eine Klassifikationsregel, anhand derer ein Dokument auf dem richtigen "Stapel" landet.

Einsatz im Helpdesk

Das Klassifizieren von Texten ist besonders geeignet, um große Mengen an neuen Informationen zu filtern, ohne Schlüsselwörter definieren zu müssen - etwa im Kundenkontaktcenter oder am Helpdesk: So kann ein Unternehmen E-Mails mit technischen Fragen deutlich schneller beantworten, wenn eine Text-Mining-Lösung die Korrespondenz vorsortiert und selbsttätig Vorschläge für eine Antwort macht. Dazu liefert das Text Mining die logische Verbindung in eine Datenbank, in der typische Fragen, Fehlerdiagnosen und Lösungsmöglichkeiten gespeichert sind. Die Text-Mining-Lösung ordnet neue E-Mails dann automatisch den richtigen Problemkategorien zu und schlägt Entwürfe für eine Antwort vor, die in der Datenbank abgelegt sind. Darüber hinaus lässt sich eine Data-Mining-Komponente integrieren, die den Zeitaufwand prognostiziert, der für das Lösen des Problems nötig ist, sofern entsprechende Daten aus der Vergangenheit in der Datenbank hinterlegt sind. Auf diese Weise können Unternehmen die Anfragen der Kunden priorisieren, die Beantwortung besser steuern.

Eine Vorreiterrolle beim Einsatz von Text Mining in der Kundenkommunikation nimmt der Heinrich-Bauer-Verlag ein: Das Unternehmen, das Magazine wie "Bravo", "TV Movie" oder "Geldidee" herausgibt, hat in Deutschland über drei Millionen Abonnenten auf seiner Kundenliste. Entsprechend groß ist das Aufkommen an E-Mails und Briefen, in denen die Leser Urlaubsunterbrechungen anzeigen, Änderungen der Adresse oder Bankverbindung mitteilen, neue Abonnements eingehen oder bestehende kündigen. Etwa eine Million Anfragen müssen pro Jahr bearbeitet werden - über 5000 pro Arbeitstag. Dabei nimmt der Anteil der Fragen und Wünsche, die in elektronischer Form eingehen, ständig zu.

Um diese gewaltigen Poststapel so schnell wie möglich abzuarbeiten, hat der Verlag in einem ersten Schritt schon vor einigen Jahren begonnen, alle Dokumente in einer Datenbank zu speichern, sodass die Sachbearbeiter mit wenigen Mausklicks auf alle Informationen zugreifen können. Die Papierbriefe werden dazu vorab gescannt und als "Bilder" abgelegt. Auf diese Weise war es dem Heinrich-Bauer-Verlag gelungen, die gesamte Post jeweils innerhalb von zwei Tagen nach Eingang zu verarbeiten. Die Reaktionszeit auf eingehende E-Mails oder Briefe hat das Unternehmen ständig verkürzt. Doch der personelle Aufwand ist auch dementsprechend hoch. Deshalb entschied sich der Verlag, mit einer Text-Mining-Lösung die Bearbeitung der E-Mails und Briefe effizienter zu gestalten. Die Hauptanforderung an die Text-Mining-Lösung war, dass sich weder die Reaktionszeiten noch die Fehlerquoten verschlechtern durften.

Drei konkrete Ziele setzte sich der Heinrich-Bauer-Verlag: Zum einen sollte die Lösung in einem Brief den richtigen Kunden identifizieren. Zweite Aufgabe war, das Dokument selbsttätig einer Kategorie - etwa Adressänderung, Neubestellung, Kündigung oder Urlaubsunterbrechung - zuzuordnen, sodass es direkt an den richtigen Sachbearbeiter weitergeleitet wird. Das dritte Ziel: Ein möglichst großer Anteil sollte sich bearbeiten lassen, ohne dass ein Mensch eingreifen muss. Teilt ein Kunde zum Beispiel eine neue Bankverbindung mit, so sollte dies ohne Eingreifen geändert werden.

Der Mensch wird noch gebraucht

Theoretisch wäre der Verlag heute mit seiner Text-Mining-Lösung in der Lage, bis zur Hälfte der gesamten Kundenkorrespondenz automatisiert zu verarbeiten. Allerdings kann auch die beste Analyselösung nicht mit dem geschulten Auge eines Sachbearbeiters konkurrieren, sodass die Fehlerquote nicht den hohen Anforderungen des Unternehmens an die eigene Servicequalität entsprechen würde. Deshalb verlässt sich der Bauer-Verlag nur bei den Briefen auf den Computer, die die Text-Mining-Verfahren mit fast hundertprozentiger Wahrscheinlichkeit zuordnen können. Das sind etwa bei der Kategorisierung nach Themen immerhin bis zu 200000 Briefe jährlich, die automatisiert an den richtigen Sachbearbeiter weitergeleitet werden. Bei der vollautomatischen Bearbeitung liegt die Zahl bei etwa 100000. Da die Lösung immer bessere Trefferquoten liefert, rechnet der Verlag damit, den Einsatz noch ausweiten zu können.

Hohes Einsparpotenzial

Legt man zugrunde, dass die Bearbeitung eines einzigen Briefes je nach Komplexität der Anfrage einen Aufwand von mehreren Euro verursacht, so können laut Firmenangaben die Kosten um eine hohe sechsstellige Summe pro Jahr reduziert werden. (fn)