Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.
Techniken zum Aufspüren von Mustern und Zusammenhängen in unstrukturierten Dokumenten oder auf Websites gewinnen an Bedeutung. Sie verhelfen Unternehmen zu neuen Entdeckungen, die herkömmliche Tools für Business Intelligence nicht bieten.

Schätzung gehen davon aus, dass heute bis zu 80 Prozent aller betrieblicher Informationen in Form unstrukturierter Textdokumente gespeichert sind. Beispiele sind Marktstudien, Geschäftsberichte, Kundenbefragungen oder Projektmemos in dateibasierenden Archiven.

Für die Analyse dieser Art von unstrukturierten Daten hat sich mittlerweile das Text Mining als Methode etabliert. Analog zum Data Mining für strukturierte Massendaten soll Text Mining Muster und Beziehungen in den Muster und Regeln in Textdokumenten aufspüren helfen (siehe auch den Beitrag "Zweiter Frühling für Data Mining").

Oft wird Text Mining mit Information Retrieval verwechselt. Letzteres wird zwar ebenfalls auf unstrukturierte Daten angewendet, im Mittelpunkt steht dabei aber die effiziente Suche nach Informationen. Ziel des Text Mining ist hingegen die Aufbereitung und Analyse unstrukturierter Daten zur Entdeckung mehr oder weniger verborgenen Wissens. Dieses soll im wirtschaftlichen Kontext dann Entscheidungsprozesse unterstützen.

Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.
Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.

Neben unternehmensinternen Textdokumenten gibt es die scheinbar unendliche Menge potenziell entscheidungsrelevanter Webseiten - Patentschriften, Branchennachrichten, Produktbewertungen oder Pressemitteilungen. Auch diese enthalten oft wertvolle Informationen für Betriebe, deren Auswertung nachhaltig Wettbewerbsvorteile sichert.

Da die Analyse von Web-Inhalten eigene Problematiken beinhaltet, hat sich hier eine weitere Variante des Data Mining entwickelt ? das Web Mining. Web Mining wendet Methoden des Data Mining an, um Datenstrukturen im Web zu untersuchen, wobei neben dem eigentlichen Seiteninhalt und der Struktur von Websites auch das Nutzerverhalten zum Gegenstand gemacht wird (siehe auch den Beitrag "Das Einmaleins der Web Analytics").

Komplexe Datenaufbereitung

Für Text Mining werden Techniken aus unterschiedlichen wissenschaftlichen Disziplinen angewendet. In der Hauptsache sind dies die in einem eigenen Beitrag vorgestellten Methoden des Data Mining, des Information Retrieval, der Computerlinguistik, der Statistik und intelligenter Software-Agenten.

Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen
Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen

Grundsätzlich sollte ein Text Mining Projekt in einem Unternehmen immer ein abgrenzbares betriebswirtschaftliches Problem sein. Tendenziell textorientierte betriebliche Aufgaben sind beispielsweise Marktforschung, Wettbewerbsanalysen oder das Kundenbeziehungsmanagement CRM) . In diesen Bereichen gibt es vielfältige Anwendungsmöglichkeiten für Text Mining, einige Beispiele nennen wir im Verlauf dieses Artikels.

Nach der Auswahl eines Problemgebiets und entsprechender Dokumente sind die Daten zu bereinigen und in analysebereite Datenstrukturen zu überführen. Bei der Auswahl relevanter Texte kann ein so genanntes ?Document Warehouse?, das Zugriff auf verschiedene Dokumenttypen aus verschiedenen Quellen anbietet, von Nutzen sein.

Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.
Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.

Grundsätzlich gilt beim Text Mining: Die Datenbereinigung und -aufbereitung spielen eine noch gewichtigere Rolle als beim Data Mining, sind aber auch deutlich aufwändiger. Aufgrund der syntaktischen Komplexität von Sprache und ihrer semantischen Mehrdeutigkeit sind viele zusätzliche Schritte erforderlich, die beim numerischen Data Mining entfallen.

So müssen die relevanten Textteile zunächst aus den Dokumenten extrahiert und in einzelne Wörter in so genannte Tokens zerlegt werden. Die Tokens werden in der Regel dann auf ihre grammatischen Grundformen reduziert - "schrieb" und "geschrieben" beispielsweise auf den Stamm "schreiben". Semantisch unbedeutende Begriffe wie "auch" oder "und" werden entfernt.