Zeitersparnis bis zu 70 Prozent

Software lernt E-Mails kategorisieren

20.08.2004

*Immer noch wächst der E-Mail-Verkehr jährlich um 100 Prozent. In Unternehmen haben sich dadurch anfangs der Aufwand und die Kosten für Büromaterial und Porto erheblich verringert. Zunehmend erhalten die Unternehmen auf elektronischem Wege aber immer mehr unerbetene Nachrichten aller Art, die die Speicherbelastungen ebenso steigern wie die Personalbindung. Bestand 2002 rund ein Viertel der elektronischen Post aus Spam-Nachrichten, so wird sich dieser Anteil nächstes Jahr auf bis zu 40 Prozent fast verdoppeln.

Neben der teuren Bindung von Speicher- und Personalkapazitäten können schlimmstenfalls wichtige Nachrichten in der Spam-Flut untergehen, sei es durch das Verschieben in die falschen Ordner, in denen sie niemals bearbeitet werden, oder durch die Annahmeverweigerung überlasteter Server. Die auf diese Weise entstehenden Kosten wurden für 2002 von der EU-Kommission auf 2,5 Milliarden Euro geschätzt. Für 2003 hat sich dieser Wert ungefähr vervierfacht. Um der Problematik Herr zu werden, muss der Speicheraufwand verringert und gleichzeitig eine bessere Kategorisierung der elektronischen Post erreicht werden.

Herkömmliche E-Mail-Verwaltungsprogramme sind dazu meist nicht in der Lage. Sie orientieren sich statisch an aufwändig eingegebenen Vordefinitionen wie Namen, Absender, Eingangsdatum oder Schlüsselbegriffen. Gesucht sind Lösungen, die größtenteils autonom in den eingehenden Datenbeständen suchen, die Mails besser kategorisieren und im Endeffekt den Speicheraufwand reduzieren.

Die Support Vector Machine

Durch die Anwendung von intelligenten Data-Mining-Verfahren lassen sich diese Anforderungen nahezu in nur einem Schritt erfüllen. Auf der Grundlage von Methoden aus der Datentheorie, der Statistik und dem maschinellen Lernen werden E-Mails mit Hilfe eines Textklassifizierungsalgorithmus analysiert. Die Klassifikation in vorher festgelegte Kategorien erfolgt dabei durch fortlaufendes autonomes Lernen nach festgelegten Parametern. Damit wird eine kontinuierliche Verbesserung der automatisierten Kategorisierungsmethode sichergestellt. Lösungen wie die Software "Responsio" des Fraunhofer-Instituts für Autonome Intelligente Systeme (AIS) sollen in der Lage sein, dynamisch auf der Grundlage von Muster- E-Mails selbstlernend den Nachrichteneingang zu sortieren. Das Verfahren - die Support Vector Machine (SVM) - fasst jedes relevante Wort als Attribut auf und errechnet, wie oft es im Text vorkommt. "Die gesamte E-Mail wird zum multidimensionalen Vektor: Jedes Wort wird als eigene Dimension des Vektors dargestellt, und die Länge des Vektors gibt die Häufigkeit des Wortes im Text an", erklärte Francois Perrevort vom Knowledge Discovery Team des Fraunhofer-Instituts. Eine definierte Kategorie besteht demnach aus vielen dieser Textvektoren und ist als Punktwolke zu verstehen. Zuletzt wird die (semantische) Nähe jedes neu eingehenden Texts mit allen Kategorien gemessen und der abstandsminimalen Kategorie zugeordnet.

Vorschläge für Antworten

Dem AIS-Team ist es aufgrund des Text-Mining-Verfahrens gelungen, dass wiederkehrende Kundenanfragen zu denselben Themen auch bei unterschiedlichen Formulierungen erkannt werden. Nachdem diese E-Mails selbständig in den entsprechenden Ordnern abgelegt wurden, schlägt das System eine passende Standardantwort vor, die nach Bestätigung wiederum autonom versandt wird. Die Zeitersparnis liegt bei bis zu 70 Prozent. (kk)

Responsio

Responsio ist vollständig in Microsofts Mail-System "Outlook" integrierbar. Es kategorisiert, kennzeichnet und sortiert eingehende E-Mails. Dazu "trainiert" der Anwender per Drag and Drop das System einmalig mit Textbausteinen oder kompletten Muster-E-Mails. Ausgehend von der bereits vorhandenen Software "Responsio-Desktop" ist eine ganze Produktfamilie geplant.