Business Intelligence in der Praxis

Bürgel setzt auf Open Source und Pentaho

10.11.2008 von Martin Ortgies
Kunden des Wirtschaftsinformationsdienstes können künftig Adressen eingeständig online über die Webseite des Adressanbieters aufrufen und auswerten. Im Hintergrund arbeitet Open-Source-Software von Pentaho.

Die Datenbasis von Bürgel Wirtschaftsinformationen beinhaltet Angaben zu mehr als 3,9 Millionen Unternehmen in Deutschland. Wollten Kunden nun Adressauskünfte bei der Bürgel Wirtschaftsinformationen GmbH & Co. KG einholen, mussten bis vor kurzem interne Mitarbeiter die benötigten Angaben aus einer internen auf einer DB2-Datenbank basierenden Anwendung zusammenstellen und dann übermitteln.

Für die geplante Ausrichtung des Dienstleistungsangebots auf das Web war diese Lösung jedoch nicht mehr wirtschaftlich erweiterbar. Bei der Suche nach Ersatz unterzog Bürgel verschiedene BI-Produkte, darunter auch Open-Source-Angebote, einer Kosten-Nutzen-Bewertung. Hierbei zog das Unternehmen die quelloffene BI-Suite von Pentaho in die engere Wahl, da der Funktionsumfang den Erwartungen zu entsprechen schien.

Gute Datenbewirtschaftung und Standard BI-Funktionen

Um detaillierte Informationen über die tatsächliche Leistungsfähigkeit, das Antwortzeitverhalten und verfügbare Erweiterungsmöglichkeiten von Pentaho zu verschaffen, beauftragt Bürgel den IT-Dienstleister Itgain mit einer Machbarkeitsprüfung und einer Teststellung mit einem Musterdatenbestand. Vor allem sollte sichergestellt sein, dass die BI-Plattform ausreichend performante ETL-Prozesse (Extraktion, Transformation und Laden) ermöglicht, mit denen sich Informationen aus den operativen Datenbanken von Bürgel auslesen, konsolidieren und in einem Data-Warehouse speichern lassen.

Diesen Test bestand die ETL-Komponente "Data Integration" von Pentaho. Sie sei geeignet, um eine hochperformante 24-Stunden-/7-Tage-Verfügbarkeit von Daten über ein Internet-Frontend bei einer Antwortzeit von durchschnittlich unter einer Sekunde für eine Transaktion abzubilden, so das Resümee.

Ferner zeigte sich, dass die Open-Source-Lösung für Bürgel ausreichende Standardfunktionen für Query und Reporting bietet und Analyseverfahren wie Online Analytical Processing (OLAP) unterstützt (siehe auch die Testbericht über die Open-Source-Berichtswerkzeuge von Pentaho, BIRT und JasperSoft"). "Wir haben bisher mit Open Source gute Erfahrungen gemacht. Schließlich sind die freie Verfügbarkeit des Source Code und die Ersparnis von Lizenzkosten gewichtige Argumente", bestätigt Achim Siebertz, Bereichsleiter IT bei Bürgel, das Bekenntnis zu freier Software (mehr über Open Source finden Sie hier).

Gute Erweiterbarkeit, aber Speicherhunger

Die Integration der vorhandenen Daten in die Olap-Datenbank verlief laut der Projektbeteiligten ohne ernsthafte Probleme, sodass die Implementierung des Open-Source-Tools innerhalb von drei Monaten abgeschlossen werden konnte. Zur Sicherheit wurde die Datenbank redundant aufgebaut (mit Backup-Funktion untereinander), um eine Hochverfügbarkeit über 24 Stunden an 7 Tagen zu gewährleisten. "Wir haben die besonderen Stärken der Open-Source-Lösung, aber auch einige Schwächen bestätigt bekommen", so Siebertz.

So habe ihm vor allem die Erweiterbarkeit der BI-Software gefallen, da sich fehlende Funktionen direkt über ein Java-Skript einbinden ließen. Dadurch war möglich, zusätzliche Funktionen für die Datenbereinigung und zur Zusammenführung mehrerer Datenquellen zu ergänzen. Eine Schwäche der Pentaho-Lösung sei hingegen der relativ große Hauptspeicherbedarf beim erstmaligen Laden der Anwendung.

Auch kann kein BI-Tool allein eine gute Abfrageleistung im laufenden Betrieb nicht sicherstellen. Hierzu ist es vielmehr eine entsprechende Datenmodellierung, die Vorbereitung der Datenbank auf typische Abfragen (Queries) sowie die Beschleunigung besonders komplexer Abfragen durch ein ganzes Spektrum von Abfrage-Charakteristika nötig. Die Kunden von Bürgel erfahren bereits bei der Adressselektion in Echtzeit, wie sich die Zahl der ausgewählten Adressen mit jedem Selektionskriterium (wie Region, Branche, Mitarbeiterzahl usw.) verändert.

Tuning der Abfragegeschwindigkeit

"Die Abfrage in Echtzeit kann man sich so vorstellen, dass noch während der Frontend-Abfrage, die DB2-Datenbank im Hintergrund schon eine Antwort formuliert", erklärt Ingo Baden, BI-Spezialist von iTgain. Hier sorgt das Pentaho-Modul Data Integration für das Laden der Informationen in die Datenbank. Die Abfrage der Daten erfolgt unabhängig davon in nachfolgenden Prozessen. Für die erforderliche Performance der Abfrage sorgt eine entsprechende Datenmodellierung, die Vorbereitung der Datenbank auf typische Abfragen (Queries) sowie die Beschleunigung besonders komplexer Abfragen durch ein ganzes Spektrum von Abfrage-Charakteristika.

Ein weiterer Implementierungsschritt ist bei Bürgel bereits in der Planung. So ist im Bereich "Marketing Services" ebenfalls die Ablösung der manuellen Datenselektion durch Pentaho-Module angedacht. Dazu will man die bisherigen Cobol-Programme und ETL-Prozesse durch Java-Techniken ersetzen (as).

Stärken und Schwächen von Pentaho

Ingo Baden, Business-Intelligence-Spezialist von Itgain sieht folgende Vorteile und Probleme von Pentaho:

  • Pentaho stellt mit seinen Komponenten Data Integration, Mondrian, Report-Designer, Metadata-Editor und Design Studio eine modulare BI-Produktsuite bereit;

  • Pentaho biete mittlerweile über einen "Platinum-Level Subscription" vergleichbare Leistungen wie andere Anbieter (Support 7 x 24 h);

  • Die Entwicklung von Pentaho, inklusive "Meilensteine", lassen sich durch Veröffentlichungen im Internet stets nachvollziehen;

  • jeder Fehler wird öffentlich gelistet;

  • Pentaho skaliert nur begrenzt. So ist etwa wie im Fall Bürgel, eine Versorgung paralleler Datenbankknoten (IBM DB2) nicht gegeben;

  • Das stärkste Argument für Open Source sind die geringeren Kosten. Allerdings muss auch bei freier Software der künftige Wartungs- und Integrationsaufwand berücksichtigt werden. Pentaho bietet ähnlich den kommerziellen BI-Anbietern einen "Professional Support" mit vergleichbaren Leistungen. Bei Erweiterungen sei Pentaho durchaus flexibler, da die gesamte Pentaho-Suite auf Java basiert.