Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

15.07.2008 von Sascha Alexander

Mit Text Mining holen Unternehmen mehr aus ihren gesammelten Informationen und können fundierter entscheiden.

Forschungsberichte, Umfrageergebnisse, E-Mails, Präsentationen, Projektstudien: Massenhaft und unstrukturiert landen Informationen Tag für Tag in den Unternehmen weltweit. Laut einer Studie des Marktforschungsinstituts IDC wird das globale Datenvolumen im Jahr 2011 mit 1,8 Billionen Gigabyte zehnmal so groß sein wie 2006.

Um diese unterschiedlichsten Informationen möglichst effektiv, zeit- und kostensparend zu nutzen, setzen Unternehmen auf technische Hilfen wie Data Mining und Text Mining. Während Ersteres strukturierte Daten auswertet, filtert Text Mining (Text Analytics) mit statistischen und linguistischen Methoden Informationen aus unstrukturierten Texten heraus (siehe auch den beitrag über die Datensuche mit Text Mining und Data Mining.

Ein Einsatzgebiet ist das Kundenbeziehungs-Management. Hier kann Text Mining zusätzliche Einsichten und strukturierte Zusammenhänge vom Text zu den Kundendaten verschaffen, indem es Konzepte, Zusammenhänge und Stimmungen aus den freien Texten herausfiltert. Die Ergebnisse können zudem helfen, das Kundenverhalten in bestimmten Situationen genauer vorherzusagen. "Wichtig ist es aber, mit einer ebenso gängigen wie falschen Annahme aufzuräumen: Textanalysen funktionieren nicht wie Suchmaschinen", erklärt Michael Mors, Country Manager der SPSS GmbH Software, die entsprechende Produkte anbietet.

Der Text-Mining-Prozess

Das Vorgehen beim Text Mining lässt sich grob in folgende Arbeitsschritte untergliedern:

Vorbereiten des Texts für die Analyse;
Konzepte extrahieren;
Meinungen und Zusammenhänge aufdecken;
Klassifizieren;
Text Analytics-Modelle aufbauen;
Text Analytics-Modelle mit anderen Datenmodellen zusammenführen;
Ergebnisse entwickeln und Modelle vorhersagen.

Unterschied zu Suchmaschinen

Während Search Engines einen Top-down-Ansatz verfolgten, um Informationen aus Textmaterialien zu filtern, werde bei Textanalysen von unten nach oben gearbeitet: "Bei Suchmaschinen müssen Endanwender genau wissen, wie sie ihre Anfragen strukturieren, um die gewünschten Informationen zu erhalten. Im Bereich Textanalysen hingegen lassen sich die Konzepte und Themen aus einer Mischung an Dokumenten aufdecken." Dann werden Beziehungen und Wechselwirkungen zwischen diesen einzelnen Strukturen hergestellt (ein Vergleich von Suchmaschinen finden Sie im Wiki der Computerwoche).

Text Analytics siebt nützliches Wissen aus unstrukturierten Daten heraus. Hierzu gehören beispielsweise Artikel, freie Textantworten auf eine Umfrage, Auszüge aus Datenbanken wie Call-Center-Aufzeichnungen oder Kunden-E-Mails, aber auch News Feeds oder Blogs. Die Methode erforscht dabei Verbindungen zwischen verschiedenen Dokumenten. Textanalytiker nutzen hierfür beispielsweise Algorithmen, um Gruppenkonzepte zu beschreiben oder Zusammenhänge zwischen diversen Strukturen und Datengebilden herauszuarbeiten. Die Ergebnisse der Textanalyse können dann in Modelle für Predictive Analytics einfließen.

Manuelle, automatisierte oder linguistische Text Analytics

Verschiedene Ansätze der Textanalyse stehen heute zur Auswahl. So können Unternehmen beispielsweise Mitarbeiter beauftragen, die Texte manuell und einzeln durchzulesen, Kommentare zu notieren und dann zu bestimmen, welcher Kategorie sie zugeordnet werden. Marktforscher kategorisieren auf diese Art unstrukturierte Textantworten in Umfragen. Dieser manuelle Ansatz ist sehr akkurat, nimmt aber natürlich meist zu viel Zeit und Ressourcen in Anspruch. Außerdem ist er bei der großen Menge an Daten heutzutage nicht praktikabel.

Ein zweiter Weg sind automatisierbare Statistiklösungen. Das Problem: Einige dieser Lösungen zählen lediglich, wie häufig bestimmte Ausdrücke auftauchen, und berechnen mögliche Ähnlichkeiten zu verwandten Begriffen. Sie gehen aber nicht auf die Mehrdeutigkeiten der menschlichen Sprache ein: Bedeutende Verkettungen können sich in auf den ersten Blick irrelevanten Ergebnissen verstecken oder sogar ganz übersehen werden. Einige dieser statistischen Lösungen versuchen, diese Ungenauigkeiten zu beheben. Sie erklären Analysten, wie sie Regeln entwickeln können, um belanglose Ergebnisse außen vor zu lassen. Da die Analysten diese Regelwerke jedoch schreiben und dann kontinuierlich pflegen müssen, ist dieser Weg komplex und teuer.

Andere statistische Lösungen basieren auf selbstlernenden Tools wie Bayeschen Netzen, neuronalen Netzwerken, Support Vector Machines (SVM) oder Latenter Semantischer Analyse (LSA). Obwohl diese Lösungen laut Experten zumeist effektiver arbeiten als andere statistische Ansätze, stehen sie im Ruf wie hochkomplizierte Black Boxes zu funktionieren: Sie setzen auf versteckte Mechanismen, die nur mit großem Aufwand individuell angepasst werden können. Linguistische Text Analytics ist genauso schnell und kosteneffektiv wie auf Statistik basierende Systeme dabei aber genauer, behauptet Mors. Sie basiert auf Natural Language Processing (NLP), das die Mehrdeutigkeit von Texten aufdeckt. Zudem können Anwender linguistische Textanalysen anpassen, um die Qualität der Ergebnisse weiter zu verbessern.

Vorbereitung des Textes für die Analyse

Wie Data Mining ist auch Text Analytics ein sich wiederholender Prozess, der dann die besten Resultate bringt, wenn er nach einer bekannten und geprüften Methode vorgeht. Er lässt sich grob in fünf Arbeitsschritte aufteilen: die Vorbereitung des Textes für die Analyse, die Ausarbeitung von Konzepten, das Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen durch Text Link Analytics, die Kategorienbildung und die Anwendung der Ergebnisse auf vorausschauende Modelle. Der Ausgangspunkt für alle späteren Analysen ist natürlich eine Textsammlung, die sich entweder aus einem kleinen Beispiel oder aus Millionen von Belegen zusammensetzen kann. Die Dokumente können in verschiedenen Sprachen und unterschiedlichsten Dateitypen vorliegen: HTML, PDF, Ascii, E-Mail oder klassische Microsoft-Office-Formate - aber auch in Form von RSS-Feeds und Blogs.

Die drei folgenden Arbeitsschritte für die Vorbereitung der Texte sind dann Sprachidentifikation, Dokumentenkonvertierung sowie Segmentierung. Nachdem die Sprache festgelegt wurde, wandelt eine entsprechende Analysesoftware für Text Mining die Dokumente in ein Format um, das für die weitere Bearbeitung genutzt werden kann. Eingebaute Filter ändern gebräuchliche Dateiarten in reines Textformat. Der Text kann so in individuelle Einzelteile zerlegt werden, aus denen sich die Konzepte ergeben. So werden beispielsweise Satzenden oder Abschnitte markiert oder spezielle Sonderzeichen aussortiert.

Ausarbeitung von Konzepten

Zur Konzeptfindung gehören neben der Zergliederung der Texte auch das Management linguistischer Ressourcen, die Extraktion von Begriffen, die Abgrenzung von Gattungen, das Bilden von Äquivalenz-Klassen sowie die Indizierung. Zusätzlich nutzen ausgereifte Produkte so genannte Fuzzy Logic: Hierbei werden ähnliche Begriffe ohne das Zutun benutzerdefinierter Quellen zusammengeführt. Die Software identifiziert beispielsweise Schreibvarianten indem sie Vokale oder doppelte Konsonanten entfernt und die Ähnlichkeiten vergleicht ("Möbel" oder "Möhbel" würden durch Fuzzy Logic zusammengeführt.). Diese Funktion ist besonders dann sehr hilfreich, wenn die Qualität des Textes zu wünschen übrig lässt wie bei manchen E-Mails oder CRM-Daten.

Ist das Konzept erarbeitet, haben Analysten die Möglichkeit, Beziehungen zwischen Entwürfen auf der Satzebene zu beschreiben - ebenso wie Meinungen oder Kennzeichen, die mit diesen Konzepten zusammenhängen. Eine Text-Link-Analyse erlaubt Analysten zugleich, positive und negative Tendenzen in Textantworten zu finden. Darüber hinaus werden Satzstrukturen auf mögliche positive oder negative Einstellungen untersucht. Organisationen können Daten wie diese beispielsweise nutzen, um vorherzusagen, welche Kunden sich am meisten für bestimmte Produkt- oder Servicefunktionen interessieren.

Konstruktion von Kategorien

Da jedes Datenset einzigartig ist, variiert auch die Auswahl an Techniken, die ein Analyst für jedes einzelne Projekt auswählt. In allen Fällen wiederholt sich aber der Klassifizierungsprozess: Ein Forscher wendet eine spezielle Technik an, evaluiert die Ergebnisse, passt die Techniken oder resultierenden Kategorien entsprechend an und verfeinert die Resultate. Automatische, linguistische Techniken enthalten Konzeptableitung, Konzepteinbindung, semantische Netzwerke und das Zusammentreffen von Regeln.

Bei der Kategorienbildung mit linguistisch basierenden Verfahren haben Anwender die Möglichkeit, spezielle Techniken auszuwählen und danach Parameter wie die Kategorienanzahl zu modifizieren. Um Kategorien zu verfeinern, bieten sich ebenfalls verschiedene Prozesse an. Der Analyst kann Meinungen zu einer Kategoriendefinition hinzufügen oder diese verändern, Kategorien zusammenfügen, verschieben oder löschen. Weitere Pluspunkte sind visuelle Graphen, die beispielsweise die Zusammenhänge zwischen den Kategorien veranschaulichen.

Vorausschauende Modelle

In den frühen Jahren der Textanalyse begrenzte sich ihr Einsatz auf Visualisierungen von Konzeptbeziehungen sowie die gelegentliche Verwendung dieser Grafiken in Berichten. Diese Zusammenfassungen mussten dann von Managern ausgewertet und interpretiert werden, bevor es an eine Ausarbeitung strategischer oder taktischer Pläne ging. Heute nutzen mehr und mehr Organisationen das so genannte Batch-Scoring - oftmals außerhalb der Stoßzeiten - ,um aktualisierte Vorhersagen in ihre Datenbanken zu übernehmen. Organisationen adressieren mit dieser Technik gezielt ganz spezielle Geschäftsproblematiken. So kann eine Universität beispielsweise mit einer Umfrage herausfinden, wie bestimmte Vorlesungen den Studenten gefallen.

Die Ergebnisse sorgen im besten Fall für eine Verbesserung des Klimas auf dem Campus. Ein Marktforschungsunternehmen oder eine internationale Firma nutzt Textanalysen für Felduntersuchungen in 20 verschiedenen Ländern: Professionelle Übersetzungen helfen durch Text Mining oder Sentiment Analysis, einen seltenen Einblick in die Gedankenwelt und das Verhalten der Kunden zu gewinnen.

Praxisbeispiel

Wie Text Mining funktioniert, zeigt der größte Schweizer Kabelnetzwerkbetreiber Cablecom. Der Carrier hatte erkannt, dass er für sein internes Enterprise-Feedback-Management (EFM) genaue Angaben benötigte, warum Kunden mit dem Service nicht zufrieden sind. Mit einer Text-Mining-Lösung kann das Unternehmen abwanderungswillige Kunden schnell erkennen. Diese werden dann gezielt angegangen, um die Kundenbindung zu verbessern - mit Erfolg: In ersten Pilotstudien ließ sich nachweisen, dass die Anzahl der verlorenen Kunden durch dieses Vorgehen von 19 auf zwei Prozent zurückging. Die besten Ergebnisse liefert eine Analyse-Suite, die Statistik, Data und Text Mining sowie Enterprise Feedback Management miteinander verbindet. Dadurch erhalten Firmen fundierte Schlussfolgerungen und können die vorhandenen Daten schneller nutzen, um aus ihnen Maßnahmen abzuleiten.

Anbieter von Software für Text Mining

Hier eine kleine Produktauswahl:

SPSS: unter anderem "Text Mining for Analysis", "Text Mining for Clementine"; "LexiQuest"-Produktfamilie;
Inxight (jetzt Business Objects): unter anderem "SmartDiscovery Extraction Server";
SAS Institute: "SAS Text Miner", Produkte von Teragram;
Autonomy: "IDOL"-Server;
Wordmap: unter anderem "Wordmap Navigator" und "Wordmap Intelligent Text Classifier";
Megaputer: "TextAnalyst";
Clearforest (jetzt bei Reuters): "Clearforest Analytics";
Vivisimo: "Velocity Enterprise Search";
NetOwl: unter anderem "NetOwl Text Miner";
Nstein: unter anderem "Nstein Text Mining Engine";
TEMIS Group: unter anderem "XeLDA";
Clarabridge: unter anderem "Clarabridge Content Mining Platform".