Der Kern des Data-Warehouse-Versprechens: Data-Mining

Algorithmen schürfen nach Gold in Datenberg

09.08.1996

Bislang unbekannte Informationen beschafft das Data-Mining, weil die dafür entwickelten Verfahren gänzlich anders arbeiten als Abfrage- und Analyse-Tools. Diese herkömmlichen Techniken dienen vor allem dem einfacheren Zugang zu bekannten Daten. Ob daraus verwertbare Informationen werden, hängt jedoch von der Initiative und Intuition des Benutzers ab. Ihm bleibt es überlassen, zum Beispiel Absatzzahlen verschiedener Filialen mit Lagerbestandslisten in Beziehung zu setzen. Er tut dies in der Regel, weil er den Verdacht hat, daß hier ein bislang unbekannter Zu-sammenhang besteht, den er durch kluge Fragen aufzudecken versucht.

Beim Data-Mining dagegen handelt es sich um Verfahren, die ohne Zutun von Anwendern aktiv nach unbekannten Mustern, versteckten Informationen und Trends fahnden. Hierzu werden Methoden der künstlichen Intelligenz, Entscheidungsbäume, statistische Verfahren und neuronale Netze eingesetzt. Oft sind diese Vorgehensweisen miteinander verquickt, und ebensooft schreiben Spezialisten im Kundenauftrag problemspezifische Algorithmen zur Durchforstung von Datenbeständen.

Immer geht es darum, Beziehungen und Muster zu finden, auf die niemand von sich aus kommen würde. So hat die oft zitierte britische Ladenkette, die ihren Bier- und Windel-Umsatz steigern konnte, weil sie die beiden Produkte nebeneinander in die Regale stellte, ein Data-Mining-Tool eingesetzt. Dieses fand heraus, daß Familienväter überdurchschnittlich oft nach Dienstschluß Windeln kaufen gehen und dabei gern Bier für sich mitnehmen wollen.

Doch nicht jede Methode eignet sich für alle Fragestellungen. Zur Modellierung besonders kom- plexer Beziehungen empfehlen die Analysten der Giga Informa-tion Group, Cambridge, Massachusetts, neuronale Netze. Kunden sollten hier darauf achten, daß die Werkzeuge angeben, auf welcher Basis sie ihre Voraussagen machen.

Regelbasierte Systeme und solche, die mit Entscheidungsbäumen arbeiten, eignen sich für weniger komplexe Aufgaben. Sie sind leichter zu bedienen, und auch die Ergebnisse lassen sich einfacher interpretieren.

Grundsätzlich gilt, daß hybride Systeme beim Data-Mining bessere Ergebnisse bringen als solche, die nur mit einer Methode arbeiten. Außerdem raten die Marktbeobachter von der Giga Information Group, Systeme zu erwerben, die direkt mit den Datenbanken kommunizieren können. Einige Produkte wie die "Data Mining Workstation" von HNC erstellen Zwischendateien und treiben damit die Speicherkosten in die Höhe.

Die meisten Data-Mining-Verfahren sind keineswegs neu. Wie in dem genannten Beispiel verwendet vor allem der Handel schon seit Jahrzehnten Data-Mining-Algorithmen, um herauszufinden, welche Produkte in der Regel miteinander verkauft werden. Kreditkarten-Dienstleister setzen diese Techniken ein, um aus ungewöhnlichem Kaufverhalten Rückschlüsse zu ziehen, ob die Karte gestohlen wurde. Broker versuchen damit, Börsentrends vorherzubestimmen, und Banken möchten auf diesem Wege herausfinden, ob sie es mit einem sicheren oder unsicheren Kreditnehmer zu tun haben. Auch Versicherungen identifizieren mit diesen Methoden Risikogruppen.

Zu neuen Ehren kommt das Verfahren jetzt vor allem wegen der immens gestiegenen Datenmengen und der zunehmenden Schwierigkeiten, in diesem Wust relevante Informationen zu finden. Da das Schürfen nach Informations-Gold im Datenberg jedoch hohe Rechenleistung verlangt, bietet sich die Kombination mit dem modischen Data-Warehousing an, bei dem die operationalen Datenbanksysteme durch eine Warehouse-Datenbank entlastet werden.

Hilfreich für die Mining-Spezialisten ist auch der Trend zu kleineren Data-Warehouses. Bislang gaben die Anwender nach einer Studie der Meta-Group im Schnitt zwei Millionen Dollar für Hardware sowie noch einmal die Hälfte davon für Software und Dienstleistungen aus. Die Dauer eines solchen Projekts liegt in der Regel bei ein bis eineinhalb Jahren. Diese Kosten und den damit verbundenen personellen Aufwand wollen oder können die meisten Unternehmen nicht aufbringen. Daher bieten immer mehr Anbieter preisgünstige Einstiegsmöglichkeiten an, in denen dann auch Data-Mining-Verfahren zum Einsatz kommen.

Solche Angebote sind jedoch mit Vorsicht zu genießen. Haben die Anwender im Unternehmen einmal den Nutzen eines begrenzten Data-Warehouse begriffen, verlangen sie rasch nach zusätzlichen Einsatzmöglichkeiten. Kleine Projekte gleichen einer Einstiegsdroge. Ähnliches gilt für Data-Mining.

Ein Problem ist die Auswahl der Werkzeuge, da deren Funk- tionsunterschiede sich in der Regel nur Statistikern und Analytikern erschließen. Einige Anbieter von Reporting- und Analyse-Tools sorgten zusätzlich für Verwirrung, weil sie ihre sogannten Drill-down-Funktionen als Data-Mining-Werkzeuge bezeichneten. Bei diesem Verfahren wird aber lediglich in einem aufbereiteten Datenbestand gesucht, in dem die Abfragemöglichkeiten genau definiert sind. Das bedeutet, daß sich nur begrenzt neue Erkenntnisse gewinnen lassen.

Projekttips

Das beste Werkzeug der Welt bringt nichts, wenn es gedankenlos angewandt wird.

Hier einige Tips für den Umgang mit Data-Mining-Tools:

-Data-Mining ist mehr Kunst als Wissenschaft. Ob die Ergebnisse nutzbringend sind, hängt von ihrer Verwendung ab.

-Nur fehlerfreie Datensätze verwenden.

-Bei der Anwendungsentwicklung müssen neben DV-Spezialisten von Anfang an Unternehmensberater und Statistiker mitarbeiten.

-Modelle für Vorhersagen müssen vor dem Einsatz mehrfach getestet werden.

-Jedes Modell muß ständig auf den aktuellen Stand gebracht werden.