Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

Fazit

Da viele Unternehmens-Informationen in unstrukturierten Dokumenten gespeichert sind, sind Werkzeuge des Text Mining eine wichtige Variante der gut etablierten, numerisch ausgerichteten Data Mining Methoden. Text Mining ist allerdings ein methodisch noch weniger geschlossenes und einheitliches Gebiet als das ohnehin schon recht zerklüftete, klassische Data Mining. Künftig ist jedoch zu erwarten, dass beide Techniken miteinander verschmelzen und als einheitliches Knowledge Management eine wichtige Rolle spielen werden.

Im Wesentlichen wird beim Text Mining versucht, Verfahren des Data Mining auf unstrukturierte Textdaten zu übertragen. Dies sind insbesondere Verfahren zum Indizieren, Klassifizieren, Clustern und automatischen Zusammenfassen der vorhandenen Dokumentensammlungen. Um dies zu erreichen sind viele Schritte notwendig, die mit der Problemerfassung und Aufbereitung der Quelldokumente beginnen.

Web Mining ist eine Anwendung von Data Mining Techniken auf Daten aus dem Web, in der Regel Websites. Unterschieden werden im Wesentlichen das inhaltsgetriebene Web Content Mining und das verhaltensgetriebene Web Usage Mining. Web Mining gilt als recht zukunftsträchtiges Gebiet, auf dem sich schon heute intensive Aktivitäten zeigen. (as)

Der Beitrag stammt von der CW-Schwesterpublikation Tecchannel.