Warnung vor überzogenen Erwartungen

Data-Mining mit neuronalen Netzen

29.11.1996

Die Gartner Group listete im vorigen Jahr ein Leistungsprofil für Werkzeuge zum Data-Mining auf. Darunter fanden sich neben der statistischen Auswertung von Daten und deren Visualisierung auch das Vorgehen nach Entscheidungsregeln und der Einsatz von neuronalen Netzen. Wird diese Meßlatte an Analyse-Tools angelegt, trennen sich schnell Spreu und Weizen. Berichtsgeneratoren oder simple SQL-Maschinen erfüllen nicht die Kriterien einer mehrdimensionalen Datenanalyse mit Zugang zu Metadaten und grafischer Repräsentation eines Ergebnisses.

Informationen im Datenwust finden

Die in einem Data-Warehouse gespeicherte Information erschließt sich einem Anwender erst über ein mehrstufiges Auswerteverfahren, das sowohl unstrukturierte Daten in verteilten Systemen durchstöbert und in einem Data-Cube aggregiert wie auch die weitere Auswertung der aggregierten Daten nach Anwendersicht zuläßt. Darunter fällt die Suche nach Mustern oder regelmäßigen Strukturen in den Daten, woraus sich Trendaussagen ableiten lassen.

Klassische Verfahren wie Clustering sind ein erster Schritt zur Datenexploration, beruhen aber auf einer rein statistischen Zuordnung. Damit läßt sich zum Beispiel der Marketing-Abteilung noch keine stichhaltige Auskunft über das Antwortverhalten von Firmenkunden auf Mailing-Aktionen geben. Erst die Kombination verschiedener Abfragetechniken und Analyseverfahren sowie die Fähigkeit, große Datenvolumina in möglichst kurzer Zeit zu durchforsten, fördern brauchbare Ergebnisse zutage. Dazu zählen neben der statistischen Auswertung Entscheidungsbäume, grafische Darstellungsmethoden und neuronale Netze. Deren Einsatz und die Verknüpfung unterschiedlicher Einflußvariablen und Zielgrößen im Neuro-Netz gilt in Fachkreisen als der eigentliche Clou beim Data-Mining.

Rolf-Jürgen Müller, Chef der Abteilung Bonitätsprüfung bei Neckermann, hat in einem Pilotprojekt die Klassifizierung von Kundengruppen durch neuronale Netze getestet. Das Ergebnis ist wenig ermutigend: "Es sind in jedem Fall mathematische Vorkenntnisse erforderlich", warnt Müller. Vor allem lange Trainingsläufe zum Einlernen neuronaler Netze machten dem DV-Team zu schaffen. Selbst bei konsistenter Datenbasis dauerte die Rechenzeit mitunter bis zu mehreren Tagen, um alle Schritte von der Abfrage über die Datentransformation bis zur Repräsentation zu gehen. Ohne Neuro-Netz auf rein statistischer Basis, so Müller, "liegt das im Minutenbereich".

Gleichwohl verbesserte sich die Trefferquote bei der richtigen Einordnung der Kunden durch den Einsatz verschiedener neuronaler Netzwerktypen und damit verbundener Optimierungsalgorithmen von 78 Prozent auf 80 Prozent. Das bringt Vorteile bei der automatischen Bonitätsprüfung eines Versandhauses, läßt sich aber nicht auf jeden Anwendungsfall übertragen. Exakte Aussagen über zukünftiges Kaufverhalten, Börsenkurse oder Preisschwankungen sind ohnehin immer mit Fehlern behaftet. Selbst mit hohem Aufwand und optimierten Algorithmen, so Müller, läßt sich die Mauer von historischen Daten zu zukünftigen Ereignissen "nicht überspringen".

*Andreas Beuthner ist freier Autor in Stockdorf bei München.