Unstrukturierte Daten

Auf Datensuche mit Text Mining und Web Mining

20.05.2008 von Klaus Manhart

Techniken zum Aufspüren von Mustern und Zusammenhängen in unstrukturierten Dokumenten oder auf Websites gewinnen an Bedeutung. Sie verhelfen Unternehmen zu neuen Entdeckungen, die herkömmliche Tools für Business Intelligence nicht bieten.

Schätzung gehen davon aus, dass heute bis zu 80 Prozent aller betrieblicher Informationen in Form unstrukturierter Textdokumente gespeichert sind. Beispiele sind Marktstudien, Geschäftsberichte, Kundenbefragungen oder Projektmemos in dateibasierenden Archiven.

Für die Analyse dieser Art von unstrukturierten Daten hat sich mittlerweile das Text Mining als Methode etabliert. Analog zum Data Mining für strukturierte Massendaten soll Text Mining Muster und Beziehungen in den Muster und Regeln in Textdokumenten aufspüren helfen (siehe auch den Beitrag "Zweiter Frühling für Data Mining").

Oft wird Text Mining mit Information Retrieval verwechselt. Letzteres wird zwar ebenfalls auf unstrukturierte Daten angewendet, im Mittelpunkt steht dabei aber die effiziente Suche nach Informationen. Ziel des Text Mining ist hingegen die Aufbereitung und Analyse unstrukturierter Daten zur Entdeckung mehr oder weniger verborgenen Wissens. Dieses soll im wirtschaftlichen Kontext dann Entscheidungsprozesse unterstützen.

Begriffsortung: Text Mining im Kontext von Suche, Entdeckung und dem Grad der Datenstrukturierung.

Neben unternehmensinternen Textdokumenten gibt es die scheinbar unendliche Menge potenziell entscheidungsrelevanter Webseiten - Patentschriften, Branchennachrichten, Produktbewertungen oder Pressemitteilungen. Auch diese enthalten oft wertvolle Informationen für Betriebe, deren Auswertung nachhaltig Wettbewerbsvorteile sichert.

Da die Analyse von Web-Inhalten eigene Problematiken beinhaltet, hat sich hier eine weitere Variante des Data Mining entwickelt ? das Web Mining. Web Mining wendet Methoden des Data Mining an, um Datenstrukturen im Web zu untersuchen, wobei neben dem eigentlichen Seiteninhalt und der Struktur von Websites auch das Nutzerverhalten zum Gegenstand gemacht wird (siehe auch den Beitrag "Das Einmaleins der Web Analytics").

Komplexe Datenaufbereitung

Für Text Mining werden Techniken aus unterschiedlichen wissenschaftlichen Disziplinen angewendet. In der Hauptsache sind dies die in einem eigenen Beitrag vorgestellten Methoden des Data Mining, des Information Retrieval, der Computerlinguistik, der Statistik und intelligenter Software-Agenten.

Eklektizismus: Text Mining bedient sich bei Techniken aus unterschiedlichsten Disziplinen

Grundsätzlich sollte ein Text Mining Projekt in einem Unternehmen immer ein abgrenzbares betriebswirtschaftliches Problem sein. Tendenziell textorientierte betriebliche Aufgaben sind beispielsweise Marktforschung, Wettbewerbsanalysen oder das Kundenbeziehungsmanagement CRM) . In diesen Bereichen gibt es vielfältige Anwendungsmöglichkeiten für Text Mining, einige Beispiele nennen wir im Verlauf dieses Artikels.

Nach der Auswahl eines Problemgebiets und entsprechender Dokumente sind die Daten zu bereinigen und in analysebereite Datenstrukturen zu überführen. Bei der Auswahl relevanter Texte kann ein so genanntes ?Document Warehouse?, das Zugriff auf verschiedene Dokumenttypen aus verschiedenen Quellen anbietet, von Nutzen sein.

Gewichtige Rolle: Die linguistische Aufbereitung der Daten wie die Reduzierung auf grammatische Grundformen ist beim Text Mining recht umfangreich.

Grundsätzlich gilt beim Text Mining: Die Datenbereinigung und -aufbereitung spielen eine noch gewichtigere Rolle als beim Data Mining, sind aber auch deutlich aufwändiger. Aufgrund der syntaktischen Komplexität von Sprache und ihrer semantischen Mehrdeutigkeit sind viele zusätzliche Schritte erforderlich, die beim numerischen Data Mining entfallen.

So müssen die relevanten Textteile zunächst aus den Dokumenten extrahiert und in einzelne Wörter in so genannte Tokens zerlegt werden. Die Tokens werden in der Regel dann auf ihre grammatischen Grundformen reduziert - "schrieb" und "geschrieben" beispielsweise auf den Stamm "schreiben". Semantisch unbedeutende Begriffe wie "auch" oder "und" werden entfernt.

Repräsentation textueller Daten

Textrepräsentation: Das Vektorraummodell stellt Dokumente vektoriell dar.

Erst wenn diese und andere Vorarbeiten, wie sie allgemein bei der Datenaufbereitung anfallen, erledigt sind, sind die Daten bereit für eine Auswertung. Dann können etwa linguistische Algorithmen analysieren, wie häufig bestimmte Begriffe in einer Textmenge vorkommen, an welchen Stellen sie sich befinden und welche der Begriffe oft im gleichen Zusammenhang erscheinen.

Zur Repräsentation der textuellen Daten dient häufig das Vektorraummodell aus dem Information Retrieval. Das Vektorraummodell stellt Dokumente als multidimensionale Vektoren in einem euklidischen Raum dar. Jedes Dokument wird dabei so in einen Vektor überführt, dass dessen Dimensionen den insgesamt in einem Textarchiv vorkommenden Wörtern entsprechen.

Damit repräsentiert eine Dimension eines Dokumentvektors die Häufigkeit des entsprechenden Wortes im jeweiligen Text. Die Koordinate eines Dokumentes in Richtung eines Wortes gibt die ?Nähe? eines Dokuments zum Wort an. Sind die Vektoren zweier Dokumente topologisch nahe, sind die Dokumente ähnlich.

Von Textaufbereitung bis Interpretation: Der Text Mining Prozess

Es folgt die eigentliche Analysephase beziehungsweise Phase der Musterentdeckung, also das eigentliche Text Mining. Die in dieser Phase verwendeten Verfahren werden von der Problemstellung bestimmt. Die wichtigsten Methoden im Kontext Text Mining stellen wir anschließend vor.

Nach der Musterentdeckung werden die Ergebnisse statistisch ausgewertet und aus betriebswirtschaftlicher Sicht interpretiert. In dieser Phase werden meist auch Visualisierungsverfahren eingesetzt. Dabei wird versucht, Fakten und Themen und deren Zusammenhänge landkartenähnlich zu präsentieren. So können Benutzer verdeckte Zusammenhänge besser erkennen. Eine anspruchsvolle Aufgabe ist dabei die Ableitung von Handlungsempfehlungen, um das betriebliche Projektziel zu erreichen.

Textuelle Klassifikationsverfahren

Für die automatische Analyse unstrukturierter Daten gibt es eine Vielzahl von Verfahren ? bedingt vor allem durch den Einfluss der verschiedenen Disziplinen. Bei den Kernverfahren unterscheidet sich Text Mining aber kaum von denen für numerisches Data Mining wie Cluster- oder Klassifikationsanalyse. Lediglich die Unstrukturiertheit der Daten bedingt gewisse Besonderheiten.

Klassifikationsverfahren haben das Ziel, Dokumente anhand ihres Inhalts in ein existierendes Kategorienschema einzuordnen. Solche automatischen Klassifikationen lassen sich in der Praxis auf breiter Basis nutzen. So können damit Dokumente, technische Beschreibungen, Nachrichten und Patente in vorgegebene Kategorien einsortiert werden.

Relativ weit verbreitet ist die automatische Erfassung und Kategorisierung von Kundenanfragen. Eingehende Kunden-E-Mails können damit in einem Unternehmen direkt an den zuständigen Sachbearbeiter weiterzugeleitet werden. Für Manager kann ein Frühwarnsystem aufgebaut werden, dass mit einer periodischen Überprüfung von Informationsquellen und Benachrichtigung der relevanten Personen gekoppelt ist.

Aber auch ausgefeiltere Anwendungen sind möglich. Im Bereich des Customer Relationship Management können automatisch klassifizierte Kunden-Mails mit anderen Daten zusammengeführt und nutzbar gemacht werden. Reklamationen lassen sich beispielsweise besser analysieren, wenn der Reklamationstext mit dem Kundenstamm und den Verkaufsdaten zusammengeführt wird. Auch spezifische Angebote können dem Kunden durch entsprechende Klassifizierungen gemacht werden.

Textuelle Cluster- und Assoziationsverfahren

Das Clustering von Dokumenten bietet eine schnelle Analysemöglichkeit von großen Dokumentsammlungen. Diese Methode wird immer dann genutzt, wenn keine vordefinierte Menge von Kategorien für die gegebene Textkollektion existiert.

Clustering textueller Daten unterscheidet sich kaum vom Clustering numerischer Daten. Die im Text Mining verwendeten Ähnlichkeits- bzw. Distanzmaße stimmen von der Grundidee her mit den Ähnlichkeits- und Distanzmaßen der numerischen Clusteranalyse überein. Aufgrund der textuellen Form dominieren hier aber Maße für binäre und kategoriale Merkmale auf der Grundlage von Indikatorvariablen (0-1-skaliert) und Häufigkeiten.

Neben der Strukturierung von Dokumenten kann Clustering auch benutzt werden, um Gruppen von Wörtern oder Phrasen zu bilden, die häufig zusammen erscheinen. Unterschiedliche Bedeutungen von Wörtern lassen sich dadurch erkennen und Mehrdeutigkeiten auflösen.

Auch die Assoziationsanalyse hat ihr textuelles Äquivalent. Analog zur numerischen Assoziationsanalyse kann in Texten nach lexikalischen Assoziationen gesucht und diese nach ihrer Stärke bewertet werden.

So lässt sich zum Beispiel aus einer Assoziation in Kunden-Mails oder Webforen zwischen dem Namen eines Produktes und negativen Zuschreibungen schließen, dass dieses Produkt in schlechtem Ruf steht. Die Erkennung von Assoziationen setzt allerdings voraus, dass die Probleme, die Synonymie und Polysemie in natürlichsprachlichen Texten einer solchen Datenanalyse bereiten, weitgehend gelöst sind.

Information Extraction

Information Extraction (IE) versucht, relevantes Wissen möglichst effizient aus einer Dokumentensammlung zu ziehen. Auf Basis von definierten Regeln analysieren IE Systeme Texte einer Dokumentsammlung und extrahieren spezifische Wörter bzw. Textteile. Dies ist besonders dann sinnvoll, wenn die Anzahl der Dokumente sehr hoch ist und die benötigten Informationen nicht mehr ?in Handarbeit? extrahiert werden können.

Unstrukturierte Texte werden durch IE in eine tabellarische Form überführt und in der Regel in einer Datenbank gespeichert. Die zu extrahierenden Elemente werden klar definiert und sind auf einen bestimmten Informationsbedarf hin ausgerichtet. Derartige Elemente können z.B. Name, Ortschaft, Datum für die Auffindung von Veranstaltungen oder Name, Telefonnummer, Adresse für die Sammlung von Adressen sein.

Doch ohne Vorarbeit geht es auch bei der automatischen Wissensextraktion nicht. So ist ein relativ hoher Vorverarbeitungsaufwand erforderlich, um die gewünschten Daten bzw. Textteile zu beschreiben. Meist erfolgt dies durch die Erstellung von formalen Regeln. Eine weitere Möglichkeit ist, die gewünschten Wörter bzw. Phrasen in einem ersten Schritt manuell auszuzeichnen. Anschließend werden daraus automatisch Regeln generiert, die auf weitere Dokumente angewendet werden können.

Web Content Mining

Während Text Mining Dokumente allgemeiner Art analysiert, ist Web Mining eine weitere Spezialisierung, die sich mit Datenmaterial aus dem Web beschäftigt. Im Vordergrund stehen dabei die besonderen Probleme, die sich im Zusammenhang mit Webdaten ergeben. Erkenntnisse aus dem Web Mining können beispielsweise dazu verwendet werden, Nutzerbedürfnisse besser zu verstehen und Websites entsprechend zu optimieren.

Grundsätzlich befasst sich Web Mining mit zwei unterschiedlichen Aufgaben: Dem Web Usage Mining und dem Web Content Mining. Web Usage Mining erkundet das Nutzerverhalten, näheres dazu gleich. Beim Web Content Mining geht es um die automatisierte Analyse und Auswertung von Website-Inhalten. Web-Daten - meist Text, manchmal auch Multimedia-Informationen und Linksammlungen - sollen nach interessanten und ökonomisch verwertbaren Mustern durchsucht werden.

Kategorisierung, Klassifikation, Filterung und teilweise auch die Interpretation von Web-Dokumenten sind hier die wesentlichen Zielsetzungen. Die meisten Ansätze beim Web Content Mining beschäftigen sich mit der automatischen Klassifikation von Webseiten in thematisch zusammenhängende Bereiche. So können z.B. von Suchmaschinen zurück gelieferte Dokumente ähnlichen Inhalts gruppiert werden, was dem Benutzer das Auffinden relevanter Dokumente erleichtert. Solche Verfahren können auch helfen, den Aufbau eines Link-Verzeichnisses wie Yahooganz oder teilweise zu automatisieren.

Segmentierung von Websites

Information Extraction: ViPer, ein Mozilla PlugIn der Uni Freiburg, extrahiert Datenstrukturen von HTML-Sites (Quelle: Uni Freiburg, Informatik)

Bei der Segmentierung von Websites und anderen Daten in thematisch zusammenhängende Bereiche können Algorithmen der Clusteranalyse herangezogen werden. Die Ähnlichkeitsberechnung zweier Dokumente kann beispielsweise mit statistischer Gewichtung von Schlagwörtern erfolgen. In Frage kommen auch Feature-Vektoren aus einer linguistischen Analyse, die allerdings aufwändig errechnet werden müssen. Methodisch werden dabei meist die partitionierenden den hierarchischen Clusterverfahren vorgezogen, da die Distanzberechnungen hierarchischer Verfahren schnell an Komplexitätsgrenzen stoßen.

Neben der Klassifikation von Webseiten aufgrund des Textinhaltes, können auch die Ergebnisse der Klassifikation der Nachbardokumente herangezogen werden. Als Techniken werden sowohl klassische statistische Verfahren wie die Diskriminanzanalyse als auch Künstliche Neuronale Netze und Entscheidungsbäume eingesetzt.

Userverhalten verstehen - Web Usage Mining

Im Gegensatz zu Web Content Mining, das auf die Inhalte zielt, versucht Web Usage Mining das Verhalten von Website-Nutzern besser zu verstehen: Wie etwa navigieren Besucher durch die Netzstruktur? Welche Inhalte bewegen sie zu welchem Handeln? Als Datenbasis dienen dabei in erster Linie die von den Webservern gespeicherten Zugriffsinformationen wie Server Logs und gegebenenfalls Informationen über die Benutzer selbst oder die Inhalte der Seiten, auf die zugegriffen wird.

Die Analyse dieser Daten ist aus verschiedensten Gründen sinnvoll. So erlaubt sie unter anderem, bestimmte Nutzergruppen gezielter anzusprechen und Informationen über ihre Interessen und Motivationen zu bekommen. Eine Analyse des Benutzerverhaltens kann beispielsweise aber auch helfen, die Struktur eines Webangebots zu verbessern und optimaler an Kundenbedürfnisse anzupassen.

Einfache Fragestellungen zum Web Usage Mining können schon durch simple Statistiken beantwortet werden. Beispielsweise kann die Häufigkeit der Zugriffe auf die Seiten einen Verknüpfungsfehler der Seiten untereinander aufdecken. Komplexere Fragen lassen sich mit den im Data Mining Beitrag angesprochenen Verfahren beantworten. Auch hier spielen wieder Clusteranalyse, Klassifikationsverfahren und Assoziationsregeln die Hauptrollen.

Web Usage Mining - Clustering und Assoziationen

Über eine Clusteranalyse können etwa Nutzer oder Daten mit ähnlichen Eigenschaften zusammengefasst werden. Das Clustering von Nutzern ermöglicht zum Beispiel das Gruppieren homogener Besucher mit ähnlichem Browsingverhalten.

Das Entdecken solcher Nutzergruppen kann hilfreich sein, um Informationen über die Marktsegmentierung zu erhalten oder personalisierte Dienste anzubieten. Ein einfaches Beispiel ist die Gruppierung der Website-Besucher in unterschiedliche Altersklassen. Abhängig von dieser Gruppierung können dann etwa beim Wiederbesuch Benutzer dynamisch auf bestimmte altersspezifische Unterseiten weitergeleitet werden.

Assoziationsregeln können verwendet werden um Seiten, die häufig im Rahmen einer Session zusammen verwendet werden, in Beziehung zu setzen und Abhängigkeiten zwischen diesen aufzudecken. Für eine solche Regel muss die Sequenz der Seitenanfragen des Users beziehungsweise der Zeitraum, in dem sich ein Nutzer auf bestimmten Seiten bewegt, identifiziert werden. Über den Apriori-Algorithmus lassen sich dann beispielsweise alle Sequenzen von Seitenanfragen nach wiederkehrenden Teilsequenzen absuchen. Das Ergebnis ist eine zumeist sehr große Menge von Regeln, aus denen die trivialen Zusammenhänge entfernt werden müssen.

Ein Ergebnis einer Assoziationsanalyse könnte beispielsweise lauten: "Wenn Besucher auf die Unterseite /firma/produkt1 zugreifen, dann besuchten Sie in 55 Prozent der Fälle auch die Unterseite /firma/produkt2". Eine andere Regel wäre: "Wenn die Seite xy besucht wurde, dann wurde in 30 Prozent der Fälle das Produkt xy bestellt."

Fazit

Da viele Unternehmens-Informationen in unstrukturierten Dokumenten gespeichert sind, sind Werkzeuge des Text Mining eine wichtige Variante der gut etablierten, numerisch ausgerichteten Data Mining Methoden. Text Mining ist allerdings ein methodisch noch weniger geschlossenes und einheitliches Gebiet als das ohnehin schon recht zerklüftete, klassische Data Mining. Künftig ist jedoch zu erwarten, dass beide Techniken miteinander verschmelzen und als einheitliches Knowledge Management eine wichtige Rolle spielen werden.

Im Wesentlichen wird beim Text Mining versucht, Verfahren des Data Mining auf unstrukturierte Textdaten zu übertragen. Dies sind insbesondere Verfahren zum Indizieren, Klassifizieren, Clustern und automatischen Zusammenfassen der vorhandenen Dokumentensammlungen. Um dies zu erreichen sind viele Schritte notwendig, die mit der Problemerfassung und Aufbereitung der Quelldokumente beginnen.

Web Mining ist eine Anwendung von Data Mining Techniken auf Daten aus dem Web, in der Regel Websites. Unterschieden werden im Wesentlichen das inhaltsgetriebene Web Content Mining und das verhaltensgetriebene Web Usage Mining. Web Mining gilt als recht zukunftsträchtiges Gebiet, auf dem sich schon heute intensive Aktivitäten zeigen. (as)

Der Beitrag stammt von der CW-Schwesterpublikation Tecchannel.