CRM und Datenqualität

Unstrukturierte Daten sind ein ungehobener Schatz

26.06.2008
Von Christian Rodatus
Ordnung in große, unstrukturierte Datenmengen zu bringen ist aufwändig, aber über den Umweg der Erzeugung semistrukturierter Daten möglich.

Analysen der Kundenzufriedenheit oder -bindung gehören im CRM an sich längst zum Standardrepertoire - aber mit einer entscheidenden Einschränkung. Sie basieren in der Regel ausschließlich auf strukturierten Daten. Diese beschreiben vorab definierte Fakten (zum Beispiel den Wohnort), Ereignisse (Kontakte, Beschwerden, Transaktionen) sowie in metrischer Form zählbare Größen (Umsatz) und Bewertungen (Kundenprofitabilität). Sie sind in Tabellen organisiert, bilden also die klassische relationale Datenbank. Diese kann Merkmale aber nur dann abbilden, wenn sie zuvor bedacht und entsprechende Felder angelegt worden sind. Und sie setzt aktive Bewertungen voraus: So müsste ein Call-Center-Agent den negativen Unterton eines Anrufers notieren - auch wenn er möglicherweise selbst zu diesem beigetragen hat.

Mit Analyse-Tools lassen sich kritische Stimmungen in einem Call-Center-Gespräch identifizieren.
Mit Analyse-Tools lassen sich kritische Stimmungen in einem Call-Center-Gespräch identifizieren.
Foto: Digital Stock

Demgegenüber stehen die unstrukturierten Daten. Sie machen etwa 85 Prozent des in den Unternehmen gespeicherten Volumens aus. Dazu zählen Texte wie E-Mails, Faxe oder Gesprächsprotokolle, Blog- und Foreneinträge, aber auch Ton- und Bildaufzeichnungen. Bevor solche Daten automatisiert ausgewertet werden können, müssen sie speziell aufbereitet werden. Hierfür wurden unterschiedliche Verfahren entwickelt, die in einigen Organisationen auch bereits im Einsatz sind. Das beste Beispiel für deren Funktionsweise bietet die Textanalyse.

Textanalyse hilft, Inhalte zu erschließen

Wie macht man unstrukturierte Daten der Analyse zugänglich? Der Trick besteht darin, sie in semistrukturierte Daten zu verwandeln, indem man ihnen eine Struktur anhängt. Das heißt: Man ordnet den jeweiligen Dokumenten einen "Tag" zu, der Informationen über den Inhalt in Tabellenform enthält.

Die Textanalyse erschließt die Inhalte im Wesentlichen durch statistische und linguistische Ansätze. Mit statistischen Verfahren lassen sich zum Beispiel die zentralen Themen eines Gesprächs ermitteln, ohne dass dazu Vorkenntnisse zwingend notwendig sind. Diese Methode behandelt einzelne Wörter als Basiselemente und erfasst deren Auftreten. Im einfachsten Fall prüft sie, welcher Begriff in bestimmten Texten am häufigsten verwendet wird, sie kann aber auch die Position der Wörter innerhalb der Texte rastern. Mit Vergleichen von Frequenz, Durchschnitt und Median sowie durch die Ermittlung von Clustern lassen sich hierzu weitergehende Aussagen treffen.

Ein Beispiel: In einer Reihe von Gesprächsprotokollen taucht das Wort "DSL" 1000-mal, das Wort "langsam" 200-mal auf. Die Häufigkeit des Worts "DSL" lässt die Vermutung zu, dass es sich dabei um den besprochenen Gegenstand handelt. Ein kombinierter Suchlauf könnte ergeben, dass die beiden Worte in fünf Gesprächen 30-mal zusammen vorkommen. Dann liegt es nahe, dass es um zu langsame DSL-Verbindungen ging. Dieses Verfahren lässt sich vereinfachen und beschleunigen, wenn man bestimmte Stichworte und Sätze - einzeln oder kombiniert - vorgibt. Voraussetzung ist, dass der Nutzer weiß, wonach er sucht.