Data-Warehousing/Mit Data-Mining zu den Informations-Nuggets

Aus Daten Fakten machen

05.07.1996

Mit dem Sammeln von Information und der Möglichkeit, darauf zuzugreifen, ist es nicht mehr getan. Die Daten müssen zusammengeführt, geliefert und so zu wirklich entscheidungsunterstützenden Informationen geformt werden - eine Aufgabe für Data-Warehouses. Genauso wichtig ist es jedoch, diese Daten gezielt zu analysieren. Man muß Beziehungen oder, statistisch gesprochen, Korrelationen zwischen verschiedenen Merkmalen herstellen (zum Beispiel die Kaufwahrscheinlichkeit eines Produkts in Abhängigkeit vom Geschlecht des Kunden).

Damit wäre die zentrale Funktion von Data-Mining-Tools schon angesprochen: Mit ihrer Hilfe generiert man aus Datenfriedhöfen echte Information und nutzt diese wiederum zur Entscheidungsunterstützung für verschiedene strategische Bereiche, beispielsweise für Unternehmensplanung, Controlling oder Marketing.

Data-Mining setzt immer auf einer Datenbank, einem Data-Warehouse oder einem sogenannten Enterprise Information System (EIS) auf. Man kombiniert bestimmte interne und externe Datenquellen und filtert so die wesentlichen Informationen heraus.

Entscheidend ist jedoch, daß sich der Anwender über seine Fragestellungen im klaren sein muß. Auch kann die Software dem Anwender die Interpretation von Analyseergebnissen nicht abnehmen. Sie kann ihm aber durch die Form der grafischen und tabellarischen Darstellung Hilfe bei der Interpretation bieten. Um es auf den Punkt zu bringen: Data- Mining erlaubt dem Anwender den direkten Zugriff auf und die Manipulation von Daten innerhalb der Data-Warehouse-Umgebung.

Praxisbeispiel eins

Ein Direkt-Marketing-Spezialist einer Bank sieht, daß die Antwortquoten bei den Mailings zu Anlagemöglichkeiten zurückgehen. Die Faktoren können vielfältig sein: sei es, daß das Antwortverhalten generell rückläufig ist, sei es, daß die Adreßqualität schlecht ist oder die Inhalte des Mailings nicht den Erwartungen der Zielgruppe entsprechen. Der Marketing-Fachmann steht vor einem Dilemma: Er soll die Direkt-Marketing-Kampagnen einerseits kostengünstig und andererseits zielgruppengerecht planen.

Praxisbeispiel zwei

Bei einem Software-Anbieter gehen die Umsätze für den Business-to-Business-Bereich zurück: Auch hier spielen wieder verschiedene Faktoren eine Rolle. War die Erhöhung des Preises verantwortlich oder die generelle Zurückhaltung von Unternehmen bei der Implementierung von Windows 95? Hätte man bei der Weiterentwicklung der Software nicht nur auf Windows 95 setzen sollen? Können bestimmte Cross-Selling-Potentiale aufgedeckt werden? Beispielsweise: Wird sich ein Käufer, der Produkt A kauft, fast immer auch für Produkt B entscheiden?

Praxisbeispiel drei

Interne Marktforschung. Daß ein vertikales Marketing, sprich eine Segmentierung in homogene Kundengruppen, notwendig ist, um die Zielgruppen optimal zu erreichen, ist schon lange kein Geheimnis mehr. Oft ließen sich vielfältige Kundenprofile aufdecken, für die man unterschiedliche Werbeträger oder Produkte konzipieren könnte. Die Frage ist nur, wie teilt man den Markt auf, und aus welchen Gruppen läßt sich am meisten herausholen?

Praxisbeispiel vier

Öffentliche Institutionen und Behörden gehen immer mehr dazu über, Schwachstellen im Führungsverhalten, im Kommunikationsverhalten und in der Organisationsstruktur aufzudecken. Zu diesem Zweck werden beispielsweise Mitarbeiterbefragungen vor Ort durchgeführt. Die Ergebnisse sollen der Schlüssel zu eventuellen Lösungsansätzen sein.

Allen Beispielen ist eines gemeinsam: Die Daten zur Beantwortung der Fragen sind vorhanden. Auch gibt es für die Organisationen heute keine Entschuldigung mehr dafür, Daten nicht zu sammeln und zu analysieren. Geeignete Instrumente zur Analyse und Interpretation der Daten existieren schon lange.

Wichtigste Voraussetzung für Data-Mining ist die Verfügbarkeit der entsprechenden Daten. Es gibt die verschiedensten Schnittstellen, um eine sogenannte Metadatenmodellierung zu realisieren, das heißt, Informationen aus unterschiedlichen Ebenen für eine Analyse zu verwenden.

Die bekannteste, wenn auch nicht immer effektivste ist die Microsoft-Schnittstelle Open Database Connectivity (ODBC). Über sie lassen sich alle gängigen Datenbankformate in Analyseprogramme überführen. Query-Tools ermöglichen dem Anwender den Ad-hoc-Zugriff auf SQL-basierte relationale Datenbanken. Die Ergebnisse der Tabellenanfragen lassen sich hinterher in andere Formate exportieren.

Die bessere Möglichkeit besteht jedoch darin, daß der Software-Anbieter das eigene Datenformat dem Data-Warehouse zum Export zur Verfügung stellt. Dazu benötigt ein Entwickler nur die zugehörige Programmier-Schnittstelle am Input-Output-Interface. Die Daten lassen sich so in den entsprechenden Analyse-Tools weiterverwenden. Inzwischen bieten alle größeren Datenbankhersteller diese Abfragesysteme in ihrer Produktpalette an.

Es gibt eine große Bandbreite an analytischen und statistischen Techniken, mit deren Hilfe man ein Maximum an Information aus seinen Daten herausholen kann. Die wichtigsten sind explorative Analysen, multivariate statistische Verfahren und neuronale Netze.

Die Statistik bietet verschiedene Techniken

Explorative Analysen sind der erste Schritt, um ein Gefühl für seine Daten zu bekommen. Um beispielsweise eine Umsatzprognose für ein Quartal zu errechnen, kann man mit einer Häufigkeitsdarstellung die Einschätzung der Verkäufer hinsichtlich des Umsatzpotentials bei verschiedenen Kunden ausgeben. Hier geht es vor allem darum, Häufigkeiten, Mittelwerte oder Extremwerte darzustellen.

Diese deskriptive Analyse der Daten ist aber oft nur eine Vorstufe. Wenn man den Ursachen für bestimmte Entwicklungen auf den Grund gehen will, benötigt man andere Verfahren. In der Statistik gängige Techniken zur Vorhersage von Beziehungen zwischen Merkmalen in einer Datenbank sind beispielsweise die multiple Regression, die Diskriminanzanalyse, die logistische Regression und Chi-Square Automatic Interaction Detector (Chaid).

Alle diese Techniken basieren auf überprüfbaren statistischen Verfahren. Sie bieten die Möglichkeit, über die Analyse einfacher Beziehungen hinaus multivariate Einflüsse von Merkmalen und deren Prioritäten festzustellen.

Bei multivariaten Verfahren wird nicht nur ein Merkmal separat betrachtet (zum Beispiel: Wie verhält sich das Einkommen der Mailing-Adressaten zur Antwortquote?), sondern es werden mehrere Faktoren gleichzeitig untersucht. Mit anderen Worten: Wie beeinflussen Merkmale wie Geschlecht, Alter, Einkommen und Wohnort den Response, und was ist die wichtigste Einflußgröße, was die zweitwichtigste etc.? Mit dem statistischen Verfahren Chaid läßt sich dieses Problem lösen.

Die Diskussion um den Einsatz neuronaler Netze ist keineswegs neu. Auf Grundlage einer Analogie mit dem menschlichen Gehirn wurden neuronale Netze programmiert. Die Schlüsselidee ist, daß neuronale Netze durch Erfahrung lernen.

Genauso, wie man lernt zu sprechen, zu laufen oder Objekte zu unterscheiden, erlernen neuronale Netze aus dem Input beziehungsweise dem Output, den sie erhalten, die Struktur in den Daten. So können sie eine Aufgabe selbständig aus Trainingsbeispielen (oder sogenannten historischen Daten) lernen, ohne daß dieses Netz dazu explizit programmiert werden muß.

Um zum Beispiel zurückzukehren: Der Direkt-Marketing-Spezialist kann das neuronale Netz mit Daten aus vorhergegangenen Mailings füttern. Die Zielsetzung lautet dann: Wie unterschieden sich die Antworter von den Nicht-Antwortern? Aus den Prognosen des Netzes zieht er Rückschlüsse für weitere Mailings und schreibt beispielsweise nur mittlere Altersgruppen mit mittlerem Einkommen für eine spezifische Anlagemöglichkeit an.

Es ist naheliegend: Je komplexer die eingesetzten Verfahren, um so anspruchsvoller sollte der zugehörige statistische Background sein. Auf der anderen Seite gehört inzwischen bei fast allen Anbietern von Software für Data-Mining die Qualifizierung in Sachen Statistik und Datenanalyse zum Standardrepertoire.

Durch die grafische Oberfläche der meisten Programme ist das Erstellen selbst von multivariaten Analysen oft schon mit wenigen Mausklicks möglich. Jetzt geht es vor allem darum, Interpretationsarbeit bei der Ergebnisanalyse zu leisten. Dabei ist das Verständnis für das eigene Unternehmen, die Kunden und die Produkte natürlich Grundvoraussetzung für jede Art von Data-Mining.

Angeklickt

Oft sind individuelle Kombinationen von Werkzeugen aus den Bereichen Data-Warehouse, Online Analytical Processing (Olap) und Data- Mining notwendig, um die effektivste Lösung für ein modernes Daten-Handling zu bekommen. Eine gute Planung, ein sicherer Zugriff auf die Daten und die Kenntnis ihrer Struktur sind besonders wichtig. Ausgefeilte Analyseverfahren stehen zur Auswahl. Der eigentliche Schlüssel jedoch besteht in der Interpretation der Ergebnisse und in der Umsetzung der Resultate in die strategische Unternehmensplanung.

*Markus von der Lühe ist Marketing-Leiter bei der SPSS GmbH in München.