CW-Subnets     |     Executive Briefings     |     Blogs & Forum     |     CW-TV     |     Newsletter     |     RSS
Schließen
Dock ein-/ausblenden
Business Intelligence & Enterprise Content Management

Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

Drucken |  Empfehlen |  PDF |  Merken
von Dr. Klaus Manhart (Lehrbeauftragter an der Uni München für Computersimulation)
Techniken zum Aufspüren von Mustern und Zusammenhängen in unstrukturierten Dokumenten oder auf Websites gewinnen an Bedeutung. Sie verhelfen Unternehmen zu neuen Entdeckungen, die herkömmliche Tools für Business Intelligence nicht bieten.

Schätzung gehen davon aus, dass heute bis zu 80 Prozent aller betrieblicher Informationen in Form unstrukturierter Textdokumente gespeichert sind. Beispiele sind Marktstudien, Geschäftsberichte, Kundenbefragungen oder Projektmemos in dateibasierenden Archiven.

Für die Analyse dieser Art von unstrukturierten Daten hat sich mittlerweile das Text Mining als Methode etabliert. Analog zum Data Mining für strukturierte Massendaten soll Text Mining Muster und Beziehungen in den Muster und Regeln in Textdokumenten aufspüren helfen (siehe auch den Beitrag "Zweiter Frühling für Data Mining").

Oft wird Text Mining mit Information Retrieval verwechselt. Letzteres wird zwar ebenfalls auf unstrukturierte Daten angewendet, im Mittelpunkt steht dabei aber die effiziente Suche nach Informationen. Ziel des Text Mining ist hingegen die Aufbereitung und Analyse unstrukturierter Daten zur Entdeckung mehr oder weniger verborgenen Wissens. Dieses soll im wirtschaftlichen Kontext dann Entscheidungsprozesse unterstützen.

Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.
Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.
Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.

Neben unternehmensinternen Textdokumenten gibt es die scheinbar unendliche Menge potenziell entscheidungsrelevanter Webseiten - Patentschriften, Branchennachrichten, Produktbewertungen oder Pressemitteilungen. Auch diese enthalten oft wertvolle Informationen für Betriebe, deren Auswertung nachhaltig Wettbewerbsvorteile sichert.

Da die Analyse von Web-Inhalten eigene Problematiken beinhaltet, hat sich hier eine weitere Variante des Data Mining entwickelt ? das Web Mining. Web Mining wendet Methoden des Data Mining an, um Datenstrukturen im Web zu untersuchen, wobei neben dem eigentlichen Seiteninhalt und der Struktur von Websites auch das Nutzerverhalten zum Gegenstand gemacht wird (siehe auch den Beitrag "Das Einmaleins der Web Analytics").

Komplexe Datenaufbereitung

Für Text Mining werden Techniken aus unterschiedlichen wissenschaftlichen Disziplinen angewendet. In der Hauptsache sind dies die in einem eigenen Beitrag vorgestellten Methoden des Data Mining, des Information Retrieval, der Computerlinguistik, der Statistik und intelligenter Software-Agenten.

Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen
Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen
Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen

Grundsätzlich sollte ein Text Mining Projekt in einem Unternehmen immer ein abgrenzbares betriebswirtschaftliches Problem sein. Tendenziell textorientierte betriebliche Aufgaben sind beispielsweise Marktforschung, Wettbewerbsanalysen oder das Kundenbeziehungsmanagement CRM) . In diesen Bereichen gibt es vielfältige Anwendungsmöglichkeiten für Text Mining, einige Beispiele nennen wir im Verlauf dieses Artikels.

Nach der Auswahl eines Problemgebiets und entsprechender Dokumente sind die Daten zu bereinigen und in analysebereite Datenstrukturen zu überführen. Bei der Auswahl relevanter Texte kann ein so genanntes ?Document Warehouse?, das Zugriff auf verschiedene Dokumenttypen aus verschiedenen Quellen anbietet, von Nutzen sein.

Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.
Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.
Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.

Grundsätzlich gilt beim Text Mining: Die Datenbereinigung und -aufbereitung spielen eine noch gewichtigere Rolle als beim Data Mining, sind aber auch deutlich aufwändiger. Aufgrund der syntaktischen Komplexität von Sprache und ihrer semantischen Mehrdeutigkeit sind viele zusätzliche Schritte erforderlich, die beim numerischen Data Mining entfallen.

So müssen die relevanten Textteile zunächst aus den Dokumenten extrahiert und in einzelne Wörter in so genannte Tokens zerlegt werden. Die Tokens werden in der Regel dann auf ihre grammatischen Grundformen reduziert - "schrieb" und "geschrieben" beispielsweise auf den Stamm "schreiben". Semantisch unbedeutende Begriffe wie "auch" oder "und" werden entfernt.

(0 Beiträge), 
Kommentieren

Beitrag schreiben

Noch kein Forums-Mitglied?
Dann gleich hier anmelden.

BI & ECM: CW-REDAKTEURE EMPFEHLEN
Die richtige ECM-Strategie (Foto: Blend Images/Fotolia) Die richtige ECM-Strategie Viele Unternehmen setzen auf Enterprise-Content-Management (ECM), um ihre Daten in den Griff zu bekommen. Lesen Sie, was dabei wichtig ist.
weiter
Mehr Nutzen durch schnelle BI (Foto: BARC) Mehr Nutzen durch schnelle BI Wer vom Start weg die verschiedenen Einflussfaktoren im Blick hat, kann den Nutzen seines BI-Systems erhöhen und Investitionen sichern.
weiter
Das neue BI (Foto: fotolia.com/Benicce) Das neue BI Mit Predictive Analytics wollen Unternehmen komplexe wirtschaftliche Zusammenhänge vorhersagen so bessere Entscheidungen treffen.
weiter
Best Practices SharePoint (Foto: Microsoft) Best Practices SharePoint Eine SharePoint-Integration wird allzu oft technisch begriffent. Der Erfolg kommt aber erst mit einem fundierten Organisations-Management.
weiter
Goldader Datenqualität (Foto: Deutsche Bank) Goldader Datenqualität Investitionen in Qualität und Zugänglichkeit von Daten werfen erkleckliche Renditen ab. Für große Firmen winken zusätzliche Millionen.
weiter
MEHR ZUM THEMA BI & ECM
  • Whitepaper
  • Top geklickt
Jobangebote
FEATURED LINKS

KOSTENLOSE NEWSLETTER VON COMPUTERWOCHE
Nachrichten morgens
Whitepaper
Nachrichten mittags
CW-Mittelstand
Highlights der Woche
Hardware
SAP-Newsletter
Software
Job + Karriere
Open-Source
Stellenmarkt
Produkte + Techn.
Freiberufler
Security
Server + Storage
Netzwerke
Mobile & Apps