SPSS liefert Version 6.0 von Clementine

Werkbank für Data Mining

16.02.2001
MÜNCHEN (as) - SPSS, Hersteller von Statistik- und Analysewerkzeugen, hat seine Data-Mining-Software "Clementine" überarbeitet. Sie wartet mit Release 6.0 vor allem mit zusätzlichen Algorithmen sowie weiteren vordefinierten Templates auf, die den Einstieg in die Datenanalyse erleichtern sollen.

Die neuen Features in Clementine 6.0 umfassen laut Hersteller weitere Algorithmen, die Möglichkeit zum Export von Datenmodellen auf Basis der Extensible Markup Language (XML) sowie zusätzliche standardisierte Templates für den leichteren Einstieg ins Data und Web Mining. Die Software offeriert wichtige Verfahren aus den Bereichen Assoziationsanalyse, Klassifikation, Segmentierung, Prognose und Statistik. Hierzu zählen die Warenkorb- und Sequenzanalyse, Entscheidungsbäume, neuronale Netze, Cluster-Analysen, Regression, Lage- und Verteilungsparameter sowie Datenreduktion. Die mit diesen Techniken verbundenen Algorithmen stammen zum einen wie gehabt aus den Produkten "SPSS" und "Answertree". Hinzugekommen sind mit Release 6.0 der Baumalgorithmus "C&RT", die multi-nominale logistische Regression, Faktorenanalyse/ PCA sowie der so genannte Two-Step-Cluster-Algorithmus, der bei der Auswertung großer Datenmengen die Verarbeitung sowohl von kategorialen als auch von metrischen Daten erlauben soll.

Templates und Best PracticesZusätzlich hat SPSS weitere Templates, sprich vorgefertigte Anwendungsschablonen, beigelegt, die auch weniger erfahrene Anwender beim Data Mining unterstützen sollen. So kommen mit Release 6.0 laut Hersteller ein Template für die Auswertung von Internet-Inhalten (Web Mining) sowie eines für den Data-Mining-Einsatz in der Telekommunikationsindustrie hinzu. Mitgeliefert wird zudem ein Mapping-Tool, mit dessen Hilfe sich Templates für die Auswertung eigener Daten nutzen lassen. Begleitet werden diese Hilfen durch die seit gut zwei Jahren angebotene und erprobte Methode "Cross Industry Standard Process for Data Mining" (Crisp-DM). Diese zielt auf die Entwicklung eines Standardprozesses für das Aufdecken von Daten ab und will helfen, den Fokus des Data Mining von der Technik und Statistik mehr auf geschäftliche Fragen zu verschieben (siehe auch www.crisp-dm.org). Daneben enthält Clementine eine Sammlung von Streams und Superknoten, die dem Benutzer die Standardtechniken beim Data Mininig näher bringen sollen.

Weitere Verbesserungen wurden in Clementine nach eigenen Angaben bei der Skalierbarkeit der Client-Server-Software und der sowieso schon von Fachleuten als sehr anwenderfreundlich bewerteten grafischen Benutzeroberfläche vorgenommen. Datenmodelle können zudem künftig als XML-Datei exportiert werden und dank spezieller Import- und Export-Knoten können Daten zwischen Clementine und den Windows-Versionen 6, 7 und 8 der Warehouse-Lösung von SAS Institute übermittelt werden.

Heuristisches VorgehenSPSS erwarb Clementine 1998 zur Ergänzung des eigenen Portfolios durch die Übernahme der britischen Firma ISL. Das Produkt wird in der aktuellen Data-Mining-Studie des Würzburgers Business Application Research Center (Barc) als sehr flexibles Produkt für prozessorientiertes Data Mining beurteilt, das vor allem leistungsfähige Modellierungstechniken bietet und Anwender in kleinen und großen Projekten zu einer heuristischen Vorgehensweise anregt, statt ihn mit den einzelnen Data-Mining-Techniken allein zu lassen.

Zugleich bewegt sich SPSS in einem fragmentierten und hart umkämpften Markt. Führende Hersteller nach Umsatz sind hier die IBM mit dem "Intelligent Miner" sowie SAS Institute mit seinem Produkt "Enterprise Miner". Laut Barc-Erhebung existieren weltweit rund 250 Clementine-Installationen. Der Client kostet ab 40 000 Euro und läuft unter Windows 95,98, NT 4.0 und 2000. Der Server kostet ab 75 000 Euro unter ist für Windows NT 4.0, 2000 sowie Sun Solaris 2.6, 2.7, IBM AIX 4.2.2 sowie HP UX 10.20 und 11.0 zu haben. Für eine Stand-alone-Lösung kommt nur die Windows-Plattform in Frage. Eine deutschsprachige Version soll noch in diesem Quartal verfügbar sein.

Abb: Anwendungsszenarien für Data Mining

Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken. Quelle: Barc