CRM und Datenqualität

Unstrukturierte Daten sind ein ungehobener Schatz

26.06.2008 von Christian Rodatus
Ordnung in große, unstrukturierte Datenmengen zu bringen ist aufwändig, aber über den Umweg der Erzeugung semistrukturierter Daten möglich.

Analysen der Kundenzufriedenheit oder -bindung gehören im CRM an sich längst zum Standardrepertoire - aber mit einer entscheidenden Einschränkung. Sie basieren in der Regel ausschließlich auf strukturierten Daten. Diese beschreiben vorab definierte Fakten (zum Beispiel den Wohnort), Ereignisse (Kontakte, Beschwerden, Transaktionen) sowie in metrischer Form zählbare Größen (Umsatz) und Bewertungen (Kundenprofitabilität). Sie sind in Tabellen organisiert, bilden also die klassische relationale Datenbank. Diese kann Merkmale aber nur dann abbilden, wenn sie zuvor bedacht und entsprechende Felder angelegt worden sind. Und sie setzt aktive Bewertungen voraus: So müsste ein Call-Center-Agent den negativen Unterton eines Anrufers notieren - auch wenn er möglicherweise selbst zu diesem beigetragen hat.

Mit Analyse-Tools lassen sich kritische Stimmungen in einem Call-Center-Gespräch identifizieren.
Foto: Digital Stock

Demgegenüber stehen die unstrukturierten Daten. Sie machen etwa 85 Prozent des in den Unternehmen gespeicherten Volumens aus. Dazu zählen Texte wie E-Mails, Faxe oder Gesprächsprotokolle, Blog- und Foreneinträge, aber auch Ton- und Bildaufzeichnungen. Bevor solche Daten automatisiert ausgewertet werden können, müssen sie speziell aufbereitet werden. Hierfür wurden unterschiedliche Verfahren entwickelt, die in einigen Organisationen auch bereits im Einsatz sind. Das beste Beispiel für deren Funktionsweise bietet die Textanalyse.

Textanalyse hilft, Inhalte zu erschließen

Wie macht man unstrukturierte Daten der Analyse zugänglich? Der Trick besteht darin, sie in semistrukturierte Daten zu verwandeln, indem man ihnen eine Struktur anhängt. Das heißt: Man ordnet den jeweiligen Dokumenten einen "Tag" zu, der Informationen über den Inhalt in Tabellenform enthält.

Die Textanalyse erschließt die Inhalte im Wesentlichen durch statistische und linguistische Ansätze. Mit statistischen Verfahren lassen sich zum Beispiel die zentralen Themen eines Gesprächs ermitteln, ohne dass dazu Vorkenntnisse zwingend notwendig sind. Diese Methode behandelt einzelne Wörter als Basiselemente und erfasst deren Auftreten. Im einfachsten Fall prüft sie, welcher Begriff in bestimmten Texten am häufigsten verwendet wird, sie kann aber auch die Position der Wörter innerhalb der Texte rastern. Mit Vergleichen von Frequenz, Durchschnitt und Median sowie durch die Ermittlung von Clustern lassen sich hierzu weitergehende Aussagen treffen.

Ein Beispiel: In einer Reihe von Gesprächsprotokollen taucht das Wort "DSL" 1000-mal, das Wort "langsam" 200-mal auf. Die Häufigkeit des Worts "DSL" lässt die Vermutung zu, dass es sich dabei um den besprochenen Gegenstand handelt. Ein kombinierter Suchlauf könnte ergeben, dass die beiden Worte in fünf Gesprächen 30-mal zusammen vorkommen. Dann liegt es nahe, dass es um zu langsame DSL-Verbindungen ging. Dieses Verfahren lässt sich vereinfachen und beschleunigen, wenn man bestimmte Stichworte und Sätze - einzeln oder kombiniert - vorgibt. Voraussetzung ist, dass der Nutzer weiß, wonach er sucht.

Zusammenhänge aus Bruchstücken erkennen

Bei den statistischen Verfahren bleiben der Kontext und die Beziehungen zwischen den identifizierten Wörtern unbestimmt. An dieser Stelle setzen die linguistischen Ansätze mit einer Syntaxanalyse an, die Sätze in ihre einzelnen Bestandteile zerlegt. Das heißt: Die Information, wer was wann und wo unter welchen Begleitumständen tut, wird extrahiert, in eine Tabelle überführt und steht damit für weitere Analysen aufbereitet zur Verfügung. Die Kunst besteht dabei darin, über die einfache Spracherkennung hinaus Zusammenhänge zu erkennen, die stimmige Fakten und Ereignisse ergeben. Die Tabelle zu einem Hotline-Gespräch würde beispielsweise aussagen: "Ereignis: Beschwerde; Objekt: DSL-Verbindung; Agent: Kunde; Ursache: zu langsam."

In dieser semistrukturierten Form lassen sich die Daten für Analysen heranziehen. Die Unternehmen können auf diese Weise ihre Datenbasis enorm verbreitern - neben den schon erwähnten Call-Center-Gesprächen und anderen Spielarten des Kundendialogs bieten sich auch interne und öffentliche Web-Foren als relevante Quellen an, um etwa das Kunden-Feedback direkt oder indirekt einzufangen. Auch das Monitoring von Online-Nachrichten kann im Einzelfall zweckmäßig sein. Jedoch lassen sich ergiebige Analysen mit semistrukturierten Daten meist erst dann vornehmen, wenn sie mit den herkömmlichen, strukturierten Unternehmensdaten verknüpft werden: Wie kommt eine Produktbewertung im Internet zustande? Welche eigenen Handlungen haben sie beeinflusst - die Produktqualität, der Service oder Werbemaßnahmen? Und wie schlägt sich das vorgefundene Meinungsbild in der tatsächlichen Nachfrage nieder? Um solche Zusammenhänge zu untersuchen, müssen auch Daten des Qualitäts-, des Kunden-Managements und des Marketings herangezogen werden.

Voraussetzung für solche Analysen ist eine umfassende Datenbasis, die sämtliche Unternehmensdaten an zentraler Stelle integriert und verfügbar hält. Aufgrund der großen und zumeist schnell wachsenden Datenmengen stellt dies extrem hohe Anforderungen an das Daten-Management, denen nur skalierbare Data-Warehouse-Lösungen wie die von Teradata gerecht werden. Das gilt erst recht, wenn neben der üblichen anwendungsbezogenen auch semistrukturierte Daten eingeschlossen werden.

Interessant: Das Aufspüren unerfüllter Kundenwünsche

So vielfältig die Quellen, so mannigfach sind im Prinzip auch die Anwendungsmöglichkeiten für die Analyse unstrukturierter Daten. Sie reichen von der Meinungsforschung über Risikoanalysen bis hin zum Qualitäts-Management von Fahrzeugen. Für das Marketing besonders interessant ist neben Produktbewertungen auch das Aufspüren unerfüllter Kundenwünsche. In der Reisebranche werden Call-Center-Gespräche vereinzelt bereits darauf untersucht. Kann zum Beispiel ein Passagier mangels freier Plätze nicht zu dem von ihm angestrebten Termin fliegen, bucht dafür aber einen späteren Flug, würde zumeist niemand seine ursprüngliche Präferenz registrieren. Anders sieht es aus, wenn solche Gespräche automatisch ausgewertet und die Ergebnisse mit einem ereignisbasierenden Marketing verknüpft werden. In diesem Fall würden die im Data Warehouse organisierten Buchungsdaten laufend überwacht.

Auch die Details zu Garantiefällen werden im CRM oft als unstrukturierte Daten erfasst. Versicherungen beginnen inzwischen damit, solche Schadensmeldungen für Risikoanalysen auszuwerten. Gleichermaßen entdecken Automobilhersteller die Werkstattberichte, die in der Regel nicht standardisiert verfasst werden, als weitere Fundgrube für ihre explorativen Qualitätsanalysen: Korrelieren gewisse Bauteile signifikant mit bestimmten Mängeln, dann lassen sich die Fehlerursachen aufspüren, ohne dass die genauen Wirkungszusammenhänge dafür im Voraus bekannt sein müssen. Fließen neben Produktions-, Entwicklungs- und anderen Daten auch die Werkstattberichte in solche Analysen ein, verbreitert sich die Datenbasis. Damit steigt die Chance, teure und die Reputation schädigende Mängel schneller zu entdecken und zu beheben.

Neue Verfahren bringen qualitativen Sprung

Unterm Strich bedeutet die Auswertung unstrukturierter Daten für das Marketing und andere Unternehmensbereiche einen qualitativen Sprung, der sich allerdings in vielen kleinen Schritten vollziehen wird. So wie heute die Spracherkennung bereits selbstverständlicher Bestandteil der Menüführung im Call-Center ist, werden künftig semistrukturierte Daten nach und nach in Kundenanalyse und das Business-Intelligence-System einfließen. (hv)