Ratgeber Text Mining

Aus unstrukturierten Daten werden Geschäftsinformationen

15.07.2008
Von 


Sascha Alexander ist seit vielen Jahren als Redakteur, Fachautor, Pressesprecher und Experte für Content-Strategien im Markt für Business Intelligence, Big Data und Advanced Analytics tätig. Stationen waren unter anderem das Marktforschungs- und Beratungshaus BARC, die "Computerwoche" sowie das von ihm gegründete Portal und Magazin für Finanzvorstände CFOWORLD. Seine Themenschwerpunkte sind: Business Intelligence, Data Warehousing, Datenmanagement, Big Data, Advanced Analytics und BI Organisation.

Andere statistische Lösungen basieren auf selbstlernenden Tools wie Bayeschen Netzen, neuronalen Netzwerken, Support Vector Machines (SVM) oder Latenter Semantischer Analyse (LSA). Obwohl diese Lösungen laut Experten zumeist effektiver arbeiten als andere statistische Ansätze, stehen sie im Ruf wie hochkomplizierte Black Boxes zu funktionieren: Sie setzen auf versteckte Mechanismen, die nur mit großem Aufwand individuell angepasst werden können. Linguistische Text Analytics ist genauso schnell und kosteneffektiv wie auf Statistik basierende Systeme dabei aber genauer, behauptet Mors. Sie basiert auf Natural Language Processing (NLP), das die Mehrdeutigkeit von Texten aufdeckt. Zudem können Anwender linguistische Textanalysen anpassen, um die Qualität der Ergebnisse weiter zu verbessern.

Vorbereitung des Textes für die Analyse

Wie Data Mining ist auch Text Analytics ein sich wiederholender Prozess, der dann die besten Resultate bringt, wenn er nach einer bekannten und geprüften Methode vorgeht. Er lässt sich grob in fünf Arbeitsschritte aufteilen: die Vorbereitung des Textes für die Analyse, die Ausarbeitung von Konzepten, das Aufdecken von Meinungen, Beziehungen, Fakten und Ereignissen durch Text Link Analytics, die Kategorienbildung und die Anwendung der Ergebnisse auf vorausschauende Modelle. Der Ausgangspunkt für alle späteren Analysen ist natürlich eine Textsammlung, die sich entweder aus einem kleinen Beispiel oder aus Millionen von Belegen zusammensetzen kann. Die Dokumente können in verschiedenen Sprachen und unterschiedlichsten Dateitypen vorliegen: HTML, PDF, Ascii, E-Mail oder klassische Microsoft-Office-Formate - aber auch in Form von RSS-Feeds und Blogs.

Die drei folgenden Arbeitsschritte für die Vorbereitung der Texte sind dann Sprachidentifikation, Dokumentenkonvertierung sowie Segmentierung. Nachdem die Sprache festgelegt wurde, wandelt eine entsprechende Analysesoftware für Text Mining die Dokumente in ein Format um, das für die weitere Bearbeitung genutzt werden kann. Eingebaute Filter ändern gebräuchliche Dateiarten in reines Textformat. Der Text kann so in individuelle Einzelteile zerlegt werden, aus denen sich die Konzepte ergeben. So werden beispielsweise Satzenden oder Abschnitte markiert oder spezielle Sonderzeichen aussortiert.