Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Textuelle Klassifikationsverfahren

Für die automatische Analyse unstrukturierter Daten gibt es eine Vielzahl von Verfahren ? bedingt vor allem durch den Einfluss der verschiedenen Disziplinen. Bei den Kernverfahren unterscheidet sich Text Mining aber kaum von denen für numerisches Data Mining wie Cluster- oder Klassifikationsanalyse. Lediglich die Unstrukturiertheit der Daten bedingt gewisse Besonderheiten.

Klassifikationsverfahren haben das Ziel, Dokumente anhand ihres Inhalts in ein existierendes Kategorienschema einzuordnen. Solche automatischen Klassifikationen lassen sich in der Praxis auf breiter Basis nutzen. So können damit Dokumente, technische Beschreibungen, Nachrichten und Patente in vorgegebene Kategorien einsortiert werden.

Relativ weit verbreitet ist die automatische Erfassung und Kategorisierung von Kundenanfragen. Eingehende Kunden-E-Mails können damit in einem Unternehmen direkt an den zuständigen Sachbearbeiter weiterzugeleitet werden. Für Manager kann ein Frühwarnsystem aufgebaut werden, dass mit einer periodischen Überprüfung von Informationsquellen und Benachrichtigung der relevanten Personen gekoppelt ist.

Aber auch ausgefeiltere Anwendungen sind möglich. Im Bereich des Customer Relationship Management können automatisch klassifizierte Kunden-Mails mit anderen Daten zusammengeführt und nutzbar gemacht werden. Reklamationen lassen sich beispielsweise besser analysieren, wenn der Reklamationstext mit dem Kundenstamm und den Verkaufsdaten zusammengeführt wird. Auch spezifische Angebote können dem Kunden durch entsprechende Klassifizierungen gemacht werden.