Data-MiningRasterfahndung nach den Kunden?

Welche feineren Werkzeuge die wirtschaftlichen Vorteile bringen

21.11.1997

Die SAZ Database Intelligence GmbH ist das DV-Zentrum des Marketing-Dienstleisters SAZ. Zu ihren Aufgaben gehören neben Datenbank- und Adreß-Dienstleistungen zum einen deskriptive Datenanalysen, um die ständige Verfügbarkeit des aktuellen Informationspotentials zu gewährleisten.

Eine besonderer Aufgabenbereich sind des weiteren prognostische Datenanalysen, um die Adreßselektion im Vorfeld von Marketing-Aktivitäten wie beispielsweise auflagenstarken Mailings zu optimieren. Hier geht es darum, individuelle Kauf- und Risikowahrscheinlichkeiten mathematisch zu modellieren. Das erlaubt präzise Aussagen über den zu erwartenden Response und Umsatz sowie die mögliche Dauer der Kundenbindung.

Solche prognostischen Analysen werden immer zweckgebunden und maßgeschneidert für ein spezielles Kundenprojekt durchgeführt; Basis ist dabei die einzelne Adresse. Sie ist allerdings häufig mit Hunderten von Einzelmerkmalen verknüpft, die dann hinsichtlich ihrer Aussagefähigkeit im Zusammenhang mit der jeweils konkreten Fragestellung analysiert werden.

Die SAZ verwendet für ihre Prognosen ausschließlich Rohdaten und keine "geclusterten" Informationen. Dies bedeutet zwar einen höheren Aufwand bei der Modellierung und damit höhere Kosten für das Projekt, bringt aber deutlich bessere Erfolge bei der Optimierung von Adreßselektionen. Die SAZ wertet die Adreßbestände ihrer Oracle-Datenbank mit dem SAS-System einschließlich diverser - zum Teil selbstentwickelter - Analyse- und Visualisierungswerkzeuge aus. Diese Mittel bringen eine hohe Performance bei der Verarbeitung von Massendaten und vielfältige Möglichkeiten zur Datenaufbereitung. Darüber hinaus umfaßt die SAS-Lösung eine universelle Programmierplattform mit objektorientierten Programmiermöglichkeiten und eine hochentwickelte Makrosprache.

Von besonderem Vorteil ist es für die SAZ, aus einer Vielzahl mathematisch-statistischer Prozeduren auswählen zu können. Das ermöglicht verschiedene Modellierungen und eine differenzierte Steuerung der zugrundeliegenden Verfahren. Zudem sind die verwendeten numerischen Algorithmen optimal gestaltet und arbeiten sehr performant. Dies reduziert den Aufwand deutlich.

Die bei der SAZ eingesetzten Verfahren für die mathematische Modellierung von prognostischen Analysen zur individuellen Response- und Risikowahrscheinlichkeit basieren im wesentlichen auf zwei verschiedenen Ansätzen: Zum einen sind dies Methoden aus der klassischen Mathematik und Statistik, sogenannte multivariate Regressionsverfahren (siehe Seite 83). Zum anderen arbeitet die SAZ mit sogenannten neuronalen Netzen.

Beiden methodischen Ansätzen ist gemeinsam, daß sie simultan eine Vielzahl von Einzelmerkmalen beziehungsweise Variablen bewerten können, und zwar hinsichtlich ihrer Auswirkungen auf die zu erklärende Zielgröße, beispielsweise eine bestimmte Wahrscheinlichkeit. Bei den klassischen Regressionsmethoden heißen diese Variablen und Zielgrößen "Regressoren" und "Regressanden", bei neuronalen Netzen "Inputs" und "Outputs". In gewissem Sinne "konservieren" beide Verfahren komplexe Zusammenhänge zwischen erklärenden Variablen und zu modellierender Zielgröße in einem mathematischem Formalismus, dem sogenannten Modell.

Wendet man ein solches Modell auf eine bestimmte Adresse an, berechnet es aus dem individuellen Merkmalsprofil die gewünschte Zielgröße auf Basis der im Modell definierten Zusammenhänge. Das kann beispielsweise die für diese Adresse zu erwartende Responsewahrscheinlichkeit auf eine geplante Werbeaktion per Briefzusendung sein.

Auf diese Weise lassen sich Datenbestände Adresse für Adresse nach ihrer Erfolgswahrscheinlichkeit maschinell bewerten und in Güteklassen segmentieren. Selektiert man anschließend die im Sinne dieser Qualifizierung besten Adressen und schreibt nur diese bei einer Mailing-Aktion an, lassen sich im Vergleich zu herkömmlichen Selektionsmethoden erheblich bessere Erfolgsquoten für diese gezielte Marketing-Maßnahme erzielen.

Der Vorteil beider Methoden gegenüber anderen Verfahren liegt in der simultanen Auswertung zahlreicher Einzelmerkmale. Dazu ein Beispiel (siehe Tabelle Beispielrechnung): Eine Gesamtmenge von 3100 Personen zeigt folgende Eigenschaften: Personen im Alter bis 45 Jahre kaufen häufiger (9,55 Prozent) als die über 45 Jahre (8,25 Prozent). Männer kaufen häufiger (10,50 Prozent) als Frauen (5,45 Prozent). Der naheliegende Schluß wäre, Männer unter 45 sind die erfolgversprechendste Zielgruppe.

Die simultane Auswertung verschiedener Merkmale zeigt jedoch, daß sich die genannte Alterstendenz innerhalb der Geschlechter kurioserweise umkehrt: Ältere Männer kaufen häufiger (11 Prozent) als die jüngeren (10 Prozent), ebenso die älteren Frauen (5,5 Prozent) im Vergleich zu den jüngeren (5 Prozent). Dies verdeutlicht erst die Notwendigkeit der simultanen Betrachtung der beiden Merkmale Geschlecht und Alter im exemplarischen Kundenkreis.

Bei diesem Beispiel mit nur zwei Merkmalen ist noch eine einfache tabellarische Darstellung möglich. Geht es jedoch um die simultane Auswertung sehr vieler Variablen, kommt man ohne leistungsfähige Data-Mining-Verfahren nicht mehr aus. Denn mit den Merkmalen wächst exponentiell das Problem, Erkenntnisse zu gewinnen.

Kreuzt man zum Beispiel 15 Merkmale jeweils mit nur drei Ausprägungen, ergeben sich 3 hoch 15, das sind 14348907 mögliche Kombinationen. Hier würde weder eine tabellarische Darstellung noch eine auf reinen Zählungen basierende Analyse greifen: Selbst in großen Analysebeständen kämen wahrscheinlich fast alle Kombinationen überhaupt nicht und der Rest nur in so geringen Besetzungen vor, daß keine signifikanten Aussagen möglich sind.

Welche der Methoden die SAZ für die Modellierung einsetzt, hängt vom Einzelfall und den zugrundeliegenden Daten ab. In der Praxis kommt es darauf an, die einzelnen Methoden optimal auf die jeweiligen Datenzusammenhänge "einzutunen" und Synergieeffekte zwischen den Methoden zu nutzen. Beispielsweise kann man erst ein lineares Modell berechnen und dessen Gewichte dann als Startwerte für nichtlineare Methoden verwenden.

Der Vorteil der Regressionsansätze - dazu gehören kategorielle, logistische und nichtlineare Regressionsverfahren - liegt darin, daß sie auf einer fundierten Theorie basieren, die dem Analytiker einen differenzierten Einblick in die Mechanismen des Modells ermöglicht. Hinzu kommt, daß die für die Modellierung verfügbaren numerischen Algorithmen sehr weit entwickelt sind und deshalb sehr performant arbeiten.

Den neuronalen Netzen fehlt noch eine sichere mathematische Theorie, und sie arbeiten auch für den Spezialisten weitgehend als "Black Box", erlauben also keine Einblicke in die internen Wirkungsprinzipien des Modells. Ihr entscheidenster Nachteil ist jedoch die "wahrhaft grausige" Numerik, die gerade bei großen Datenmengen unkalkulierbar lange Rechenzeiten verursacht. Außerdem verlangen sie vom Anwender ein gewisses Maß an Bereitschaft zum Experimentieren.

Sie erzielen jedoch vor allem bei sehr inhomogenen Datenbeständen eine etwas bessere Anpassung zwischen Modell und Realität als die klassischen Methoden. Die SAZ setzt neuronale Netze eher als Alternative ein, allerdings zunehmend häufiger und mit gutem Erfolg.

Bei allem technischen Aufwand sollte man jedoch eines nicht vergessen: Auch die intelligentesten Analysesysteme ermöglichen keine Wahrsagerei. Sie konservieren lediglich Gesetzmäßigkeiten, die in der Vergangenheit beobachtet wurden - dies allerdings in einer Schärfe, die jede herkömmliche Selektionsmethode weit hinter sich läßt. Prognostisch auswertbar sind jedoch nur Adressen, zu denen Informationen vorliegen. Je detaillierter diese Informationen sind, desto genauer lassen sich die wirklich erfolgversprechenden Zielgruppen identifizieren.

Bereits mit einer Kombination rein adreßbezogener "weicher" Informationen wie "Pro-Kopf-Kaufkraft in der Wohngegend" läßt sich durch optimierte Adreßselektion vor Mailings die Response-Quote verdoppeln. Bezieht man dann noch kundenhistorische Informationen mit ein, steigt die Erfolgsrate bei Mailing-Aktionen oft um ein Vielfaches.

Jede Prognose ist dennoch nicht mehr als die Hoffnung, daß sich die bisher beobachteten Zusammenhänge auch in Zukunft bestätigen mögen. Analysemethoden stoßen schnell an ihre Grenzen, wenn man sie auf künftige Situationen überträgt.

Auch der Zeitaufwand für die Optimierung der Selektionsmethoden ist relativ hoch: Pro Modellierung sind im Durchschnitt vier bis sechs Mannwochen zu veranschlagen. Dennoch: Der Erfolg rechtfertigt den Aufwand, vor allem bei hohen Mailing-Auflagen von mehreren hunderttausend bis zu mehreren Millionen Aussendungen. Eine um 50 bis 100 Prozent höhere Erfolgsquote gegenüber herkömmlichen Methoden ist eher die Regel als die Ausnahme.

Angeklickt

Effektives Marketing ist heute ohne leistungsstarke Datenbanken und Analysesysteme nicht mehr denkbar. Da es in der Regel um das Auswerten von riesigen Datenmengen geht, werden moderne Data-Mining-Verfahren eingesetzt, um den Informationsgehalt transparent zu machen. Vor allem nutzt man diese Technik, um zuverlässige, genaue Prognosen zum Voraussagen von Kaufneigungen, Einschätzen von Risiken und Eingrenzen von Kundengruppen zu gewinnen. Die Verfahren sind aufwendig und komplex, doch sie bringen genauere Kundenklassifizierungen, zielgerichtete Marketing-Aktionen, bessere Response und mehr Gewinn.

Rasterfahndung?

Gerade beim Speichern und Auswerten von Kundendaten im Database-Marketing stellt sich die Frage, inwieweit hier nicht auch rechtliche Grenzen überschritten werden. Die Gefahr einer "Rasterfahndung" nach Kunden ist ein häufiges Argument.

Doch die dürfte nicht sehr groß sein: Zum einen stehen für die Neukundengewinnung in der Regel nur durch Aggregation - zum Beispiel auf Haus-, Straßen oder Wohngebietsebene - "entschärfte" Daten zur Verfügung. Zum anderen ergeben die Zahlen ein anderes Bild.

Gelingt beispielsweise mit Hilfe komplexer analytischer Methoden eine Verdoppelung der Response-Quote bei einer Mailing-Aktion, so steigt der Anteil der erfolgreich verschickten Werbesendungen vielleicht von 1,5 auf drei Prozent. Von der Erfolgsseite her betrachtet mag das beeindrucken. Anders betrachtet sinkt der Anteil der erfolglos verschickten Sendungen von 98,5 auf 97 Prozent.

Von einer wirklich sicheren Einschätzung von Individuen kann bei solchen Zahlen keine Rede sein. Wenn die Fehlerquote bei Fahndungen in ähnlichen Größenordnungen läge, bekäme die deutsche Kriminalpolizei sicherlich ernste Schwierigkeiten.

SAZ-DV

Die SAZ Database Intelligence GmbH besitzt die Adressen von rund 30 Millionen deutschen Haushalten. Zur Verwaltung und Analyse dieses Bestands verwendet sie folgende DV-Ausstattung:

Hardware und Systemumgebung: Acht Datenbank-Server unter Windows NT 4.0 mit jeweils zwei bis vier Pentium-CPUs, 128 MB bis 1 GB Haupt- und 20 bis 192 GB Plattenspeicher, zirka 40 Clients (486er Pentium-PCs) unter Windows NT oder Windows 95, in der Analyse-Abteilung zusätzlich vier Workstations (jeweils zwei bis vier Pentium-CPUs, 128 bis 512 MB Haupt - und 9 bis 24 GB Plattenspeicher ) unter Windows NT 3.5, 3.51 oder 4.0.

Datenbank-Software: Oracle 7.3 mit SAZ-eigenen Adreß-Database-Anwendungen; Analysesoftware: SAS, Releases 6.09, 6.11 und 6.12 einschließlich Base-SAS sowie die Module Stat, AF, ASP, OR, Access, Graph, Spectraview; plus SAZ-eigener Anwendungsmodule (Dart) für die mathematische Modellierung individuellen Response- und Riskoverhaltens.

Multivariate Regressionsverfahren

Diese stellen eine Zielgröße (Regressand) als Funktion von beeinflussenden Größen (Regressoren) in einer Formel dar, um zum Beispiel eine Wahrscheinlichkeitsverteilung zu berechnen. Der Regressand ist meistens eine Transformation der eigentlichen Zielgrößen. Es gibt mehrere Verfahren:

1. Lineare Verfahren

Hier wird die Regressionsfunktion als "linear" in den Regressoren angenommen. Bei den für die Modellierung verfügbaren Einzelinformationen unterscheidet man grundsätzlich zwischen skalierbaren (numerischen) Variablen wie Alter, Einkommen, Umsatz, und kategoriellen Größen wie Geschlecht, Bundesland, Haustyp. Dementsprechend gibt es Verfahren, die jeweils einen der beiden Variablentypen als Input erwarten.

Vorteil: Gute numerische Handhabung und damit gute Performance der für die Schätzung der Parameter ("Gewichte") notwendigen Näherungsverfahren. Nachteil: Bestimmte Grundannahmen (zum Beispiel statistische Unabhängigkeit der Regressoren) entsprechen nicht unbedingt der Realität. Deshalb bei stark inhomogenen Daten manchmal Schwierigkeiten in der Anpassung zwischen Modell und Realität.

Kategorielle Regression

Dieses Verfahren benötigt kategorielle Größen als Input. Sollten auch numerische Inputs verwendet werden, müssen diese vorher kategorisiert werden, zum Beispiel in Altersgruppen.

Vorteil: Die vorgeschaltete Kategorisierungssphase erlaubt das freie Gestalten von Variablenkategorien. Außerdem kann man für jede Variable die Anzahl der Kategorien durch geeignete Zusammenfassung beschränken, so daß sich dann eine höhere Anzahl von Variablen im Modell verwenden läßt, und so zuverlässige Prognosen möglich sind. Nachteil: In jeder Kategorisierung liegt ein Verlust an Information. Sie muß aber vor der Modellierung erfolgen, bevor man die Wertigkeit bestimmter Details für die anliegende Fragestellung genau kennt.

Logistische Regression

Diese Verfahren benötigen numerische Inputs. Sollen auch kategorielle Größen einfließen, müssen diese vorher numerisiert beziehungsweise skaliert werden.

Vorteil: Bei der logistischen Regression gibt es keinen Informationsverlust durch Kategorisierung der Regressoren. Die Modellspezifikationen lassen sich mit entsprechender Software zum Teil schnell vollautomatisch durchführen und müssen nicht zeitaufwendig manuell gesteuert werden. Nachteil: Die Anzahl der verwendbaren Variablen ist kleiner als bei kategoriellen Verfahren, deshalb neigen logistische Prognosen schneller zu Instabilitäten als kategorielle. Das Einbeziehen von stabilitätsfördernden Wechselwirkungen zwischen verschiedenen Regressoren ins Modell ist im Vergleich zu kategoriellen Ansätzen wesentlich komplizierter.

2. Nichtlineare Verfahren

Sie gestatten die freie Auswahl der Transformation und der Regressionsfunktion. Im Prinzip fallen auch neuronale Netze in diese Kategorie, allerdings lassen sich die ihnen zugrundeliegenden Regressionsfunktionen nur schwer in geschlossener Form angeben.

Vorteil: Die Annahmen in den Modellansätzen sind weniger strikt, die Modelle passen sich der Realität daher manchmal besser an - insbesondere, wenn die Analysebestände starke Inhomogenitäten enthalten. Nachteil: Die wesentlich höhere Anzahl zu schätzender Parameter und komplexere Funktionsformeln erschweren die numerische Handhabung der notwendigen Näherungsverfahren und haben deshalb längere Laufzeiten. Es sind mehr manuelle Eingriffe notwendig als bei den linearen Methoden.

Neuronale Netze kombinieren komplexe mathematische und statistische Verfahren. Sie eignen sich besonders für Klassifikationen und Prognosen bei sehr inhomogenen Datenbeständen. Sie bieten keinen Einblick in interne Wirkungsprinzipien und brauchen eine sehr hohe Rechenleistung.

* Michael Felsmann ist Geschäftsführer der SAZ Database Intelligence GmbH in Garbsen bei Hannover.