Open-Source-BI

Ohne Risiko zu Ad-hoc-Abfragen

28.10.2011
Von Patrick Schulte-Middelich und Georg Peters
Das Open-Source-Projekt "Infobright" soll die Schwächen von Data-Warehouse-Lösungen in Sachen komplexer Ad-hoc-Queries lösen.

Viele Unternehmen haben erkannt, dass es wesentlich zum Erfolg beiträgt, wenn sich aus den immer größeren Datenmengen Wissen generieren lässt. Daher stehen Data-Warehouse-Lösungen auf der Prioritätenliste der meisten CIOs ganz oben. Eine zentrale Herausforderung dabei ist jedoch, dass klassische Data-Warehouse-Lösungen vor allem zur Unterstützung von Standardabfragen optimiert sind, nicht jedoch für die immer wichtigere Bearbeitung von Ad-hoc-Abfragen.

Zudem haben die in Data Warehouses gespeicherten Daten über die letzten Jahre signifikant zugenommen, ohne dass die I/O-Transferraten wesentlich verbessert wurden, was letztlich zu stetigen Performance-Einbußen geführt hat. Herkömmliche Data-Warehouse-Lösungen versuchen dagegen anzugehen, indem sie ihre Performance beispielsweise durch die Verwendung von Indizes, optimierten Datenbank-Schemata und anderen Verfahren verbessern. Das ist zwar sehr effektiv, setzt aber voraus, dass bereits im Vorfeld bekannt sein muss, welche Anfragen an die Datenbank gestellt werden. Somit sind die in einem dynamischen Wirtschaftsumfeld immer wichtigeren Ad-hoc-Queries eine große Herausforderung für Data-Warehouse-Techniken.

Eine Lösung soll hier die Infobright Community Edition (ICE) bieten, die für eine optimierte Abarbeitung von Ad-hoc-Abfragen in großen Data Warehouses (mittlerer Terabyte-Bereich) konzipiert ist.

Infobright-Einsatzgebiete

Die Drei-Schichten-Architektur von ICE
Die Drei-Schichten-Architektur von ICE

Doch bevor es in die technischen Details von ICE geht, hier noch ein kurzer Hinweis auf die Einsatzgebiete. Im Allgemeinen sind die Bereiche, in denen Data Warehouses eingesetzt werden, zu unterschiedlich, als dass es eine optimale Lösung geben könnte, die allen Anforderungen gleich gut gerecht wird. Ist einem Unternehmen sehr genau bekannt, welche Anfragen es an seine BI-Lösung stellen wird, oder plant es Echtzeit-Data-Warehousing, sind herkömmliche Data-Warehouse-Plattformen häufig die bessere Wahl, da Techniken wie zum Beispiel Indizes, die lange in der Praxis optimiert wurden, die Anfragen in der Regel effizienter bearbeiten können.

Das hier vorgestellte Projekt ist insbesondere für komplexe analytische Ad-hoc-Anfragen ausgelegt und sollte auch vorrangig für entsprechende Anfragen eingesetzt werden. Die Problemlösung wird im Wesentlichen durch zwei Techniken erreicht: zum einen durch eine spaltenorientierte Datenbank und zum anderen durch Rough Sets zur Abarbeitung von Anfragen.