Open-Source-BI

Ohne Risiko zu Ad-hoc-Abfragen

28.10.2011
Von Patrick Schulte-Middelich und Georg Peters

ICE-Architektur

ICE beruht auf einer Drei-Schichten-Architektur. In der untersten Schicht befinden sich so genannte Data Packs, darüber liegt das Knowledge Grid und in der obersten Schicht der Optimizer.

Die Daten der einzelnen Spalten werden in Data Packs von jeweils 65.536 Einträgen zusammengefasst. Zu jedem Data Pack werden beim Data Load im Rahmen des Knowledge Grid automatisch Data Pack Nodes und Knowledge Nodes erstellt, in denen statistische Informationen über die Daten wie minimaler und maximaler Wert oder Metadaten wie Beziehungen zwischen Spalten festgehalten sind. Es sind also immer Informationen über alle Daten in der Datenbank enthalten. Der Optimizer, die höchste Ebene der Architektur, arbeitet die Anfragen ab und entpackt anhand der Daten im Knowledge Grid nur die Daten, die zur Abarbeitung tatsächlich benötigt werden.

Infobright ist eingebunden in die Architektur von MySQL.
Infobright ist eingebunden in die Architektur von MySQL.

Der Optimizer unterteilt die Datenpakete anhand der Daten im Knowledge Grid in drei Kategorien: relevante (jeder Wert wird benötigt), irrelevante (kein Wert wird benötigt) und suspekte (ein Teil der Werte wird eventuell benötigt) Pakete. Dieser Prozess findet iterativ statt, bis am Ende nur noch tatsächlich benötigte Pakete dekomprimiert werden.

Das Knowlegde Grid sowie der Optimizer und ein spezieller Data Loader sind voll in die Architektur der Open-Source-Datenbank MySQL integriert. Infobright setzt dabei auf bewährte MySQL-Features wie einschlägige Schnittstellen (C, JDBC, ODBC, .NET, Perl und andere) sowie Katalogfunktionen wie Tabellendefinitionen, Views oder Zugriffsberechtigungen. Dadurch, dass nur einzelne Komponenten ausgetauscht wurden, ist sichergestellt, dass zum einen die ICE-Technik effizient in eine bereits bestehende IT-Infrastruktur integriert werden kann, zum anderen in der Regel keine allzu großen Umstellungen auf die Datenbankadministratoren zukommen.

Zusammenfassung

Die vorgestellte Data-Warehouse-Technik verbessert mit Hilfe von Rough Sets das spaltenorientierte Datenbankkonzept und ist speziell auf komplexe analytische Ad-hoc-Anfragen optimiert. In diesem Bereich lassen sich enorme Performance-Gewinne erzielen. Als Open-Source-Projekt lässt sich mit ICE zudem relativ risikolos evaluieren, ob die Verwendung des Verfahrens für die vorgesehene Anwendung geeignet ist.