Software lernt E-Mails kategorisieren

26.08.2004
Von 
Kriemhilde Klippstätter ist freie Autorin und Coach (SE) in München.

Durch die Anwendung von intelligenten Data-Mining-Verfahren lassen sich diese Anforderungen nahezu in nur einem Schritt erfüllen. Auf der Grundlage von Methoden aus der Datentheorie, der Statistik und dem maschinellen Lernen werden E-Mails mit Hilfe eines Textklassifizierungsalgorithmus analysiert. Die Klassifikation in vorher festgelegte Kategorien erfolgt dabei durch fortlaufendes autonomes Lernen nach festgelegten Parametern.

Damit wird eine kontinuierliche Verbesserung der automatisierten Kategorisierungsmethode sichergestellt. Lösungen wie die Software "Responsio" des Fraunhofer-Instituts für Autonome Intelligente Systeme (AIS) sollen in der Lage sein, dynamisch auf der Grundlage von Muster-E-Mails selbstlernend den Nachrichteneingang zu sortieren. Das Verfahren - die Support Vector Machine (SVM) - fasst jedes relevante Wort als Attribut auf und errechnet, wie oft es im Text vorkommt. "Die gesamte E-Mail wird zum multidimensionalen Vektor: Jedes Wort wird als eigene Dimension des Vektors dargestellt, und die Länge des Vektors gibt die Häufigkeit des Wortes im Text an", erklärte Francois Perrevort vom Knowledge Discovery Team des Fraunhofer-Instituts. Eine definierte Kategorie besteht demnach aus

vielen dieser Textvektoren und ist als Punktwolke zu verstehen. Zuletzt wird die (semantische) Nähe jedes neu eingehenden Texts mit allen Kategorien gemessen und der abstandsminimalen Kategorie zugeordnet.

Vorschläge für Antworten

Dem AIS-Team ist es aufgrund des Text-Mining-Verfahrens gelungen, dass wiederkehrende Kundenanfragen zu denselben Themen auch bei unterschiedlichen Formulierungen erkannt werden. Nachdem diese E-Mails selbständig in den entsprechenden Ordnern abgelegt wurden, schlägt das System eine passende Standardantwort vor, die nach Bestätigung wiederum autonom versandt wird. Die Zeitersparnis liegt bei bis zu 70 Prozent.