Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

15.07.2008
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.

Ausarbeitung von Konzepten

Zur Konzeptfindung gehören neben der Zergliederung der Texte auch das Management linguistischer Ressourcen, die Extraktion von Begriffen, die Abgrenzung von Gattungen, das Bilden von Äquivalenz-Klassen sowie die Indizierung. Zusätzlich nutzen ausgereifte Produkte so genannte Fuzzy Logic: Hierbei werden ähnliche Begriffe ohne das Zutun benutzerdefinierter Quellen zusammengeführt. Die Software identifiziert beispielsweise Schreibvarianten indem sie Vokale oder doppelte Konsonanten entfernt und die Ähnlichkeiten vergleicht ("Möbel" oder "Möhbel" würden durch Fuzzy Logic zusammengeführt.). Diese Funktion ist besonders dann sehr hilfreich, wenn die Qualität des Textes zu wünschen übrig lässt wie bei manchen E-Mails oder CRM-Daten.

Ist das Konzept erarbeitet, haben Analysten die Möglichkeit, Beziehungen zwischen Entwürfen auf der Satzebene zu beschreiben - ebenso wie Meinungen oder Kennzeichen, die mit diesen Konzepten zusammenhängen. Eine Text-Link-Analyse erlaubt Analysten zugleich, positive und negative Tendenzen in Textantworten zu finden. Darüber hinaus werden Satzstrukturen auf mögliche positive oder negative Einstellungen untersucht. Organisationen können Daten wie diese beispielsweise nutzen, um vorherzusagen, welche Kunden sich am meisten für bestimmte Produkt- oder Servicefunktionen interessieren.

Konstruktion von Kategorien

Da jedes Datenset einzigartig ist, variiert auch die Auswahl an Techniken, die ein Analyst für jedes einzelne Projekt auswählt. In allen Fällen wiederholt sich aber der Klassifizierungsprozess: Ein Forscher wendet eine spezielle Technik an, evaluiert die Ergebnisse, passt die Techniken oder resultierenden Kategorien entsprechend an und verfeinert die Resultate. Automatische, linguistische Techniken enthalten Konzeptableitung, Konzepteinbindung, semantische Netzwerke und das Zusammentreffen von Regeln.

Bei der Kategorienbildung mit linguistisch basierenden Verfahren haben Anwender die Möglichkeit, spezielle Techniken auszuwählen und danach Parameter wie die Kategorienanzahl zu modifizieren. Um Kategorien zu verfeinern, bieten sich ebenfalls verschiedene Prozesse an. Der Analyst kann Meinungen zu einer Kategoriendefinition hinzufügen oder diese verändern, Kategorien zusammenfügen, verschieben oder löschen. Weitere Pluspunkte sind visuelle Graphen, die beispielsweise die Zusammenhänge zwischen den Kategorien veranschaulichen.