Der Host bedient das Data Warehouse

15.03.2005
Von Kai Leonhardt

Bislang wurden Daten im Batch-Verfahren bewegt, bei dem große Datenmengen in kurzer Zeit repliziert werden, um die Informationen auf Quell- und Zielsystemen zu synchronisieren. Hapag-Lloyd aktualisierte diese Daten wöchentlich. Doch der Transfer nahm viel Zeit in Anspruch. Weil dieses Vorgehen auch immer wieder Rechenzeit auf dem Host im Rechenzentrum erforderte, entstanden Kosten. Im Zuge der Überarbeitung sollte daher eine moderne Datenintegrationsplattform eingeführt und das Data Warehouse Compass gleichzeitig vom Mainframe auf AIX migriert werden.

Mit Unterstützung des Softwareherstellers Informatica werden derzeit alle Prozesse, die in drei Jahren Entwicklungsarbeit mit der alten Lösung erstellt wurden, auf die Integrationsplattform "Power Center" umgesetzt. Diese Arbeit wird mehr als ein Jahr in Anspruch nehmen. Ab Juni 2005 soll die Integrationsplattform die Datenextraktion aus FIS und SAP-Software übernehmen, zudem die Transformation dieser Daten und das Laden in das Data Warehouse. Je nach Analysebedürfnissen werden die Daten dabei umgewandelt und in verschiedenartige Sichten gebracht, also gemäß den Bedürfnissen der Anwender in Mappings zusammengefasst und visualisiert.

CDC-Methode erleichtert Aktualisierung der Daten

Für die Verbindung zwischen Quell- und Zielsystemen nutzt Hapag-Lloyd zudem das Change-Data-Capture-(CDC-)Verfahren, das die eingesetzten Tools bieten: Im herkömmlichen Batch-Betrieb kommt irgendwann der Punkt, an dem bei wachsenden Datenvolumina die Batch-Bewegung der Daten zu zeitaufwändig wird. Dies ist beispielsweise der Fall, wenn Daten vom operational eingesetzten Mainframe mit einer Web-Anwendung synchronisiert werden müssen. Bisher war Hapag-Lloyd dabei auf rechenintensive Vorher-Nachher-Vergleiche, basierend auf "Timestamps", angewiesen. Dabei wurde beispielsweise ein ganzer Datensatz repliziert, obwohl sich letztlich nur zwei Felder geändert hatten. Doch die Veränderungen konnten nicht lokalisiert werden, nur das geänderte Datum. Das CDC-Verfahren, das ebenso wie DB2 auf dem Host läuft, bringt hier eine Verbesserung. Ab einem definierten Zeitpunkt werden nur noch geänderte Daten geladen. Typischerweise geschieht dies in periodischen Abständen, etwa täglich. Es ist aber theoretisch auch möglich, Änderungen in Echtzeit zur Verfügung zu stellen.

Informationen sind aktueller - der Rechenbedarf sinkt