Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

15.07.2008
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.

Unterschied zu Suchmaschinen

Während Search Engines einen Top-down-Ansatz verfolgten, um Informationen aus Textmaterialien zu filtern, werde bei Textanalysen von unten nach oben gearbeitet: "Bei Suchmaschinen müssen Endanwender genau wissen, wie sie ihre Anfragen strukturieren, um die gewünschten Informationen zu erhalten. Im Bereich Textanalysen hingegen lassen sich die Konzepte und Themen aus einer Mischung an Dokumenten aufdecken." Dann werden Beziehungen und Wechselwirkungen zwischen diesen einzelnen Strukturen hergestellt (ein Vergleich von Suchmaschinen finden Sie im Wiki der Computerwoche).

Text Analytics siebt nützliches Wissen aus unstrukturierten Daten heraus. Hierzu gehören beispielsweise Artikel, freie Textantworten auf eine Umfrage, Auszüge aus Datenbanken wie Call-Center-Aufzeichnungen oder Kunden-E-Mails, aber auch News Feeds oder Blogs. Die Methode erforscht dabei Verbindungen zwischen verschiedenen Dokumenten. Textanalytiker nutzen hierfür beispielsweise Algorithmen, um Gruppenkonzepte zu beschreiben oder Zusammenhänge zwischen diversen Strukturen und Datengebilden herauszuarbeiten. Die Ergebnisse der Textanalyse können dann in Modelle für Predictive Analytics einfließen.

Manuelle, automatisierte oder linguistische Text Analytics

Verschiedene Ansätze der Textanalyse stehen heute zur Auswahl. So können Unternehmen beispielsweise Mitarbeiter beauftragen, die Texte manuell und einzeln durchzulesen, Kommentare zu notieren und dann zu bestimmen, welcher Kategorie sie zugeordnet werden. Marktforscher kategorisieren auf diese Art unstrukturierte Textantworten in Umfragen. Dieser manuelle Ansatz ist sehr akkurat, nimmt aber natürlich meist zu viel Zeit und Ressourcen in Anspruch. Außerdem ist er bei der großen Menge an Daten heutzutage nicht praktikabel.

Ein zweiter Weg sind automatisierbare Statistiklösungen. Das Problem: Einige dieser Lösungen zählen lediglich, wie häufig bestimmte Ausdrücke auftauchen, und berechnen mögliche Ähnlichkeiten zu verwandten Begriffen. Sie gehen aber nicht auf die Mehrdeutigkeiten der menschlichen Sprache ein: Bedeutende Verkettungen können sich in auf den ersten Blick irrelevanten Ergebnissen verstecken oder sogar ganz übersehen werden. Einige dieser statistischen Lösungen versuchen, diese Ungenauigkeiten zu beheben. Sie erklären Analysten, wie sie Regeln entwickeln können, um belanglose Ergebnisse außen vor zu lassen. Da die Analysten diese Regelwerke jedoch schreiben und dann kontinuierlich pflegen müssen, ist dieser Weg komplex und teuer.