Der Host bedient das Data Warehouse

22.02.2005
Von Kai Leonhardt
Mit Hilfe von Datenintegrations-Tools verbindet der Hamburger Logistikkonzern Hapag-Lloyd Container Linie sein Unix-basierendes Data Warehouse mit der Mainframe-Welt.

Die IT-Verantwortlichen der Hapag-Lloyd Container Linie haben sich ein ehrgeiziges Ziel gesteckt: Der gesamte Daten- und Informationsaustausch mit Kunden und Lieferanten soll elektronisch abgewickelt werden. Damit, so die Hoffnung, würde der manuelle Aufwand aller an der Transportkette Beteiligten reduziert. Zugleich stiege die Qualität der Information.

Gegenwärtig stützt sich das Hamburger Unternehmen auf eine IT-Infrastruktur mit drei Säulen: das operative Fracht-Informationssystem "FIS", eine Finanzlösung von SAP sowie das eigenentwickelte Data Warehouse "Compass". Während die SAP-Software auf einem AIX-basierenden Server läuft, werden FIS und Compass auf Mainframes betrieben. Auf allen Servern kommt als Datenbankplattform IBMs DB2 zum Einsatz. Die Server sind im Rahmen eines Outsourcing-Abkommens an ein Rechenzentrum der IBM in Schweinfurt ausgelagert worden.

Weil die Bewirtschaftung des schnell wachsenden Data Warehouse einen immer höheren Aufwand erforderte, nahm das Management Anfang 2004 die Umstrukturierung der IT-Umgebung in Angriff. Mitte 2005 soll das Data Warehouse auf AIX migriert werden. Für den Datenaustausch mit dem Mainframe-System FIS und den SAP-Programmen nutzt Hapag-Lloyd Integrations-Tools des US-amerikanischen Herstellers Informatica.

Den Informationsaustausch mit Kunden und Zulieferern organisieren die Hanseaten bislang auf unterschiedlichen Wegen: Er kann beispielsweise über die Firmen-Website laufen, die als virtuelles Büro gestaltet ist. Eine andere Möglichkeit bieten EDI-Lösungen, daneben aber auch der klassische Kundenservice, den der Frachtkunde telefonisch oder per Fax nutzen kann. Darüber hinaus steht das Internet-Portal "Inttra" zur Verfügung, an dem Hapag-Lloyd beteiligt ist.

Künftig soll den Kunden eine Schnittstelle für alle Transportbelange zur Verfügung stehen, einschließlich Tracking and Tracing über das Internet. Aus den im FIS generierten operativen Prozessen zieht Hapag-Lloyd dann Daten wie Umsatz, Kosten, Kunden- und Transportinformationen. Alle bei der Ausführung dieser Prozesse im FIS anfallenden Daten werden in das Data Warehouse geladen.

Mühsame Verbindung zwischen Frachtsystem und Warehouse

In der Vergangenheit wurde ein codegenerierendes Tool eingesetzt, um die Daten aus dem operativen FIS abzuholen, zu transformieren und in das Data Warehouse zu laden. Gleiches galt für den umgekehrten Weg, sprich Informationen vom Data Warehouse in das FIS einzuspielen. Dabei musste jeder einzelne Prozess - von der Erfassung von Auftragseingängen über das Orderverfahren bis hin zur Beauftragung von Subunternehmern - in so genannte Conversions aufgeteilt und dann einzeln umgesetzt werden. Mit dem eingesetzten Cobol-Generator war dazu bei jedem Schritt ein Programmcode zu entwickeln, zu kompilieren und auf den Mainframe zu laden - ein zeitaufwändiges Verfahren, denn in einer derart komplexen Umgebung kommt es immer wieder zu Änderungen, die neue Eingriffe erfordern. So werden etwa Quellsysteme modifiziert, neue Objekte hinzugefügt oder entfernt. Weil die User immer mehr und möglichst aktuelle Informationen benötigen, steigen die Anforderungen und der gewünschte Grad der Aktualität ständig.

Das Batch-Verfahren war nicht mehr schnell genug

Bislang wurden Daten im Batch-Verfahren bewegt, bei dem große Datenmengen in kurzer Zeit repliziert werden, um die Informationen auf Quell- und Zielsystemen zu synchronisieren. Hapag-Lloyd aktualisierte diese Daten wöchentlich. Doch der Transfer nahm viel Zeit in Anspruch. Weil dieses Vorgehen auch immer wieder Rechenzeit auf dem Host im Rechenzentrum erforderte, entstanden Kosten. Im Zuge der Überarbeitung sollte daher eine moderne Datenintegrationsplattform eingeführt und das Data Warehouse Compass gleichzeitig vom Mainframe auf AIX migriert werden.

Mit Unterstützung des Softwareherstellers Informatica werden derzeit alle Prozesse, die in drei Jahren Entwicklungsarbeit mit der alten Lösung erstellt wurden, auf die Integrationsplattform "Power Center" umgesetzt. Diese Arbeit wird mehr als ein Jahr in Anspruch nehmen. Ab Juni 2005 soll die Integrationsplattform die Datenextraktion aus FIS und SAP-Software übernehmen, zudem die Transformation dieser Daten und das Laden in das Data Warehouse. Je nach Analysebedürfnissen werden die Daten dabei umgewandelt und in verschiedenartige Sichten gebracht, also gemäß den Bedürfnissen der Anwender in Mappings zusammengefasst und visualisiert.

CDC-Methode erleichtert Aktualisierung der Daten

Für die Verbindung zwischen Quell- und Zielsystemen nutzt Hapag-Lloyd zudem das Change-Data-Capture-(CDC-)Verfahren, das die eingesetzten Tools bieten: Im herkömmlichen Batch-Betrieb kommt irgendwann der Punkt, an dem bei wachsenden Datenvolumina die Batch-Bewegung der Daten zu zeitaufwändig wird. Dies ist beispielsweise der Fall, wenn Daten vom operational eingesetzten Mainframe mit einer Web-Anwendung synchronisiert werden müssen. Bisher war Hapag-Lloyd dabei auf rechenintensive Vorher-Nachher-Vergleiche, basierend auf "Timestamps", angewiesen. Dabei wurde beispielsweise ein ganzer Datensatz repliziert, obwohl sich letztlich nur zwei Felder geändert hatten. Doch die Veränderungen konnten nicht lokalisiert werden, nur das geänderte Datum. Das CDC-Verfahren, das ebenso wie DB2 auf dem Host läuft, bringt hier eine Verbesserung. Ab einem definierten Zeitpunkt werden nur noch geänderte Daten geladen. Typischerweise geschieht dies in periodischen Abständen, etwa täglich. Es ist aber theoretisch auch möglich, Änderungen in Echtzeit zur Verfügung zu stellen.

Informationen sind aktueller - der Rechenbedarf sinkt

Dieses Vorgehen hat zahlreiche Vorteile: Informationen sind aktueller, und die Änderungen können zeitgleich in mehrere Anwendungen übertragen werden. Ferner sinkt die Beanspruchung von Rechenleistung und Datentransfer drastisch. Mit CDC können Prozesse ferner auch anders angesteuert werden: Wenn bekannt ist, welches Feld sich wirklich verändert hat, können die entsprechenden Prozesse darauf geeicht und ein Trigger-Verfahren eingeführt werden. Dadurch lässt sich ein Großteil der Berechnungen, die ansonsten notwendig wären, einsparen. (wh)