Open-Source-BI

Ohne Risiko zu Ad-hoc-Abfragen

28.10.2011
Von Patrick Schulte-Middelich und Georg Peters

Rough Sets in Infobright

Als zweite Optimierungstechnik nutzt ICE so genannte Rough Sets, die sich dadurch auszeichnen, dass Klassen durch zwei Approximationen beschrieben werden. Objekte, die einer "Lower Approximation" zugeordnet werden, sind sichere Mitglieder der korrespondierenden Klasse. Hingegen ist die tatsächliche Mitgliedschaft von Objekten in einer "Upper Approximation" ohne weitere Informationen nicht offensichtlich. Somit kann man Objekte in sichere und unsichere Kandidaten bezüglich vorgegebener Eigenschaftsklassen aufteilen.

In der ICE werden Rough Sets instrumentalisiert, um aus gegebenen Informationen die Daten, die für die Abarbeitung einer Anfrage benötigt werden, von den irrelevanten zu trennen. In der Rough-Set-Terminologie werden die sicheren Objekte den Lower- Approximationen der Klassen {benötige Objekte} beziehungsweise {irrelevante Objekte} zugeordnet. Weiterhin werden unsichere Objekte den Upper-Approximationen beider Klassen zugeordnet. Technisch erfolgt das in ICE dadurch, dass die Daten in Pakete aufgeteilt werden, die automatisch mit einer Reihe von Eigenschaften, so zum Beispiel maximaler Wert in einem Datenpaket, gekennzeichnet sind. Aufgrund dieser Kennzeichnung wird bei einer Anfrage automatisch erkannt, welche Datenpakete benötigt werden beziehungsweise irrelevant sind oder welche näher untersucht werden müssen. Durch diese Vorklassifikation lassen sich die Abfragen erheblich zielgerichteter und damit effizienter vornehmen als mit klassischen Verfahren.