BI-Tools und Suiten im Test

Business Intelligence für Geizige

04.01.2010
Von 
Dr. Klaus Manhart hat an der LMU München Logik/Wissenschaftstheorie studiert. Seit 1999 ist er freier Fachautor für IT und Wissenschaft und seit 2005 Lehrbeauftragter an der Uni München für Computersimulation. Schwerpunkte im Bereich IT-Journalismus sind Internet, Business-Computing, Linux und Mobilanwendungen.

ETL-Tools I - Kettle

Bekanntlich fasst man unter dem Begriff "BI" Techniken wie Data Warehousing, Datenanalyse, Datamining und Reporting zusammen. Unternehmen versuchen damit, ihre Geschäftsabläufe und Kontakte zu Kunden und zu Business-Partnern zu optimieren. Im Vordergrund steht dabei die Sammlung, Speicherung, Auswertung und Aufbereitung von Daten.

Für die Datenhaltung und das Data Warehousing auf Open Source Basis bieten sich die quelloffenen Datenbanken MySQL und PostgreSQL als Datenspeicher an. Um die aus den Datenbanken stammenden Daten zu bereinigen, in das richtige Format zu bringen und in das Data Warehouse zu befördern, kommt das ETL-Verfahren zum Einsatz.

Die besten Open-Source-Tools für den ETL-Prozess sind Kettle und Talend. Kettle ist eine quelloffene, einfach bedienbare und leistungsfähige ETL-Software, die in vielen BI-Projekten enthalten ist. Das System ist vom Funktionsumfang mit kommerziellen Systemen vergleichbar und lässt sich überall dort nutzen, wo Datenbanken eine Rolle spielen. Als alleinstehende Java-Anwendung kann man Kettle sowohl in BI-Projekten einsetzen als auch als einzelne Applikation, mit der Daten regelmäßig bearbeitet, synchronisiert oder einfach nur exportiert werden können.

Leistungsfähig: Kettle ist ein ETL-Tool zum Bereinigen und Aufbereiten von Unternehmensdaten.
Leistungsfähig: Kettle ist ein ETL-Tool zum Bereinigen und Aufbereiten von Unternehmensdaten.

ETL-Prozesse können ohne Programmierung erstellt werden. Unter einer grafischen Oberfläche lassen sich Transformationen und Datenimportprozesse oder -exportprozesse entwerfen und realisieren. Auch komplexe Datenflüsse können einfach gestaltet werden. Übersichtlich ist auch die Darstellung der Daten und Datenflüsse.

Kettle kann mit verschiedenen Datenquellen arbeiten. Neben Datenbanken wie MySQL, SQLServer, Oracle, Sybase und PostgreSQL können das auch Excel- oder XML-Dateien sein. Seit Mitte 2006 ist Kettle unter dem Namen Pentaho Data Integration Teil der Pentahos BI-Suite, die am Schluss des Artikels vorgestellt wird.