Interview zum Zensus 2011

Monsterprojekt Datenintegration

06.05.2011 von Johannes Klostermeier
Die Volkszählung ist in puncto Datenschutz und -integration ein Großprojekt. Wie wichtig vorab die Datenprofilierung ist, erklärt Otto Neuer von Informatica unserer Schwesterpublikation CIO.
Für Otto Neuer, Geschäftsführer von Informatica, ist der Zensus 2011 "eines der wichtigsten Projekte der Öffentlichen Hand".
Foto: Informatica

CIO.de: Was hat Informatica mit dem Zensus 2011 zu tun?

Otto Neuer: Wir haben uns als Informatica komplett der Datenintegration und Datenqualität verschrieben. Wir haben zwar aktuell mit dem Projekt Zensus 2011 direkt nichts zu tun. Das kann sich aber in der einen oder anderen Detailaufgabe noch ändern. Wir bemühen uns darum. Wir denken aber, dass wir unsere Kompetenz auf dem Gebiet der Datenintegration bewiesen haben, insbesondere wenn es darum geht, sehr große auch unstrukturierte Datenmengen unterschiedlichster Art und aus verschiedenen Quellen zusammen zu führen und zu integrieren. Das haben wir in hunderten von großen Projekten in der Wirtschaft aber auch im öffentlichen Bereich unter Beweis gestellt.

CIO.de: Wie wichtig ist der Zensus für Deutschland?

Foto: S.John - Fotolia.com

Neuer: Wenn man sieht, welche Bedeutung die Ergebnisse und die Erkenntnisse, die man daraus ableitet, für das Gesundheitswesen, die Ausbildung, Renten und Pensionen haben, muss man sagen, dass es sich um eines der wichtigsten Projekte der Öffentlichen Hand handelt. Die Auswertung des Zensus bedeutet für jeden von uns, dass zukunftsweisende Entscheidungen getroffen werden.

CIO.de: Wollten Sie denn als Informatica ursprünglich beim Zensus mitmachen?

Neuer: Wir haben zum Zeitpunkt der Bewerbung unseren Fokus auf andere Branchen gesetzt und waren aus Ressourcen-Gründen nicht in der Lage, ein solches Projekt durchzuführen. Das wäre heute etwas anders.

CIO.de: Datenintegration ist Ihr Thema, was bedeutet das genau?

Neuer: Wir helfen unseren Kunden dabei, Daten aus verschiedensten Quellen in einem Data Warehouse in eine logische Datenhaltung zusammenzuführen. Dies können Daten unterschiedlichster Art sein - aus operativen Systemen, ERP-Systemen, CRM-Systemen und anderen, die historisch über die Jahrzehnte gewachsen sind. Das hat man in der Vergangenheit mit ETL beschrieben, mittlerweile ist es aber sehr viel mehr. Wir sprechen von einem Enterprise Data Integration Prozess, der mit ETL beginnt, aber auch Datenqualitäts- und Datenintegritätsmaßnahmen einschließt und auch die Integration von Supply-Chain-Daten mit Geschäftspartnern über die Unternehmens-Firewall hinaus berücksichtigt. Wir begleiten unsere Kunden also auf dem gesamten Datenintegrationslebenszyklus.

CIO.de: Was hat der Zensus mit Datenintegration zu tun?

Neuer: Er hat sehr viel mit Datenintegration zu tun, weil die Daten ja aus verschiedenen unterschiedlichen Quellen kommen. Die Datenintegration kann man über spezielle softwaregestützte Regelprozesse abbilden oder aber automatisieren. Wir haben eine Technologie, die mit ganz unterschiedlichen Quellen und Datenformaten arbeiten kann und die Daten in einem einheitlichen Datenformat zusammenführt.

CIO.de: Es geht ja auch immer um die richtige Datenqualität.

Neuer: Ja, es beginnt immer mit der Vorbereitung. Wir nennen das Datenprofilierung. Man schaut sich das Profil einer Teilmenge von Daten an und kann daraus Problemfälle ableiten und Trends für das Auftreten gewisser Fehler erkennen. Dann entwickelt man für Daten, die in einem bestimmten Format sind, Regeln, also organisatorische Informationen. Dieser Arbeitsschritt erfolgt bei vielen unserer Kunden vor der eigentlichen Datenintegration.

Anonymität von Daten schwer zu gewährleisten

CIO.de: Was sind die kritischen Punkte beim Zensus?

Bei der Deutschen Telekom gab es Probleme mit dem Datenschutz der Kundendaten.
Foto: Deutsche Telekom AG

Neuer: Letztlich ist es vor allem die Datenmenge. Es gibt sicher nur wenige Projekte im öffentlichen Bereich, bei denen es um solch eine große Menge an Daten geht. Das beeinflusst natürlich auch das Laufzeitverhalten von Prozessen und Abläufen. Ich frage mich, ob es da genug Erfahrung gibt. Hinzu kommen Fragen der Datensicherheit. Insbesondere die Anonymität der Daten im Testumfeld muss ja gewährleistet sein. Eine vernünftige Lösung hierfür ist mir bislang noch nicht begegnet. Wir kennen diese Problematik aus verschiedenen Situationen, zum Beispiel der Telekommunikationsindustrie. Da gab es in der Vergangenheit große Skandale. Heute wird extrem großer Wert darauf gelegt, dass die Daten in Testumgebungen verschlüsselt und anonymisiert werden. Es muss Transparenz geschaffen werden.

CIO.de: Was sind die Voraussetzungen, dass man heute eine Volkszählung registergestützt durchführen kann?

Neuer: Vor allem gibt es heute die notwendige Technologie, diese stand bei der letzten großen Volkszählung noch nicht zur Verfügung. Das ist ein ganz großer Unterschied. Man hat sich für die registergestützte Methode entschieden, weil man so nicht mehr alle Einwohner erfassen muss. Heute kann man mit statistischen Methoden arbeiten. Das macht das Ganze effizienter und spart Zeit.

CIO.de: Die Daten sind trotzdem akkurat?

Neuer: Ja. Man kann von der Stichprobe auf das Ganze schließen. Auch das wäre vor einiger Zeit noch nicht gegangen. Es muss eben in einer frühen Phase eine Datenprofilierung durchgeführt werden, um zu klären: Welche Trends gibt es? Wo können Fehler auftreten? Je früher Sie das erkennen, desto besser können Sie ihre Regeln abbilden. Damit erreichen Sie realistische Ergebnisse.

Datenschutz ist eine Frage der Firmenkultur

CIO.de: Wie sieht es bei den Firmen, für die Sie arbeiten, mit Datenschutzbedenken aus?

Neuer: Wir können als Anbieter von Datenintegrations-Lösungen nur die technologische Seite abdecken. Wir können nur Technologie bereitstellen, die dabei hilft, Daten innerhalb der vereinbarten Regeln in einem Unternehmen zu behandeln. Was aber bleibt, ist die Frage nach der Firmenkultur. Unsere Kunden müssen intern klären, wie sie als Firma mit Daten und Informationen umgehen wollen Zuerst einmal braucht man einen Konsens zwischen allen Beteiligten im Unternehmen über die Frage: Wie offen wollen wir mit Informationen umgehen? Wir stellen in dieser Hinsicht aktuell übrigens sehr viel Bewegung fest.

CIO.de Wie groß sind die Datenmengen, mit denen Sie es in der Regel zu tun haben?

Neuer: Die Herausforderung ist nicht die Menge als solche, es ist vielmehr von Bedeutung, wie die Daten zusammen kommen. Wir haben in Deutschland vergleichbare Projektgrößenordnungen, wenn auch die Art der Daten eine ganz andere ist. Ein Projekt, das mir einfällt, haben wir vor zwei Jahren mit der Deutschen Börse realisiert. Dabei ging es um den gesamten Finanzmarkt und alle Produkte, die dort analysiert wurden. Da ging es um Hunderte von Terabytes. Dabei macht vor allem die Komplexität der Daten das Projekt so herausfordernd.

Es geht um zwei Datengruppen: Das eine sind die konventionellen, die strukturierten Daten, die wir in standardisierter Form in den Datenbankensystemen vorhalten. Das andere sind die wenig bis nichtstrukturierten Daten, das wird in Zukunft die Majorität der Daten sein, mit der wir arbeiten. Das sind HTML-Formate, PDFs und E-Mailkonversation. Nehmen Sie die neuen sozialen Netze. Das sind alles Daten, die man auswerten muss, wenn man seine Kunden oder seine Bürger verstehen will. Die Integration ist hier sehr aufwendig und komplex, weil die Daten kein normales Format haben.

CIO.de: Sollten Unternehmen und Behörden nicht von vornherein datensparsamer sein?

Neuer: Ja, man kann es damit vergleichen, wie wir heute mit den Daten der digitalen Fotografie umgehen. Bei den klassischen Filmen hat man noch überlegt, welches Bild man machen will und wie die Einstellung sein muss. Jeder Abzug hat Geld gekostet. Bei der digitalen Fotografie wird einfach drauf losgeknipst. Dadurch wird der Wert des einzelnen Bildes vernachlässigbar. Wir erzeugen als Gesellschaft eine solch große Menge an Bildern, die eigentlich niemand braucht.

Informatica hat aber auch eine Lösung dafür: "Data Retirement". Denn auch Unternehmen halten viele Anwendungen und Daten bereit, die sie eigentlich nicht mehr benötigen. Man fürchtet eben, man könnte irgendwann einmal den Zugriff darauf brauchen. Deswegen werden ganze Systemlandschaften aufrechterhalten. Aber: Da wird sehr viel Geld verschwendet, denn sie müssen ja gepflegt werden. Unsere Lösung hilft dabei festzustellen, was eigentlich noch gebraucht wird und was nicht. Dann werden die Dinge entweder für immer gelöscht oder eben gespeichert. Die Informationen können je nach Informationsbedarf auf unterschiedliche Speichersysteme ausgelagert werden. Das schafft in den Datenbanken Platz und spart Kosten.

Commerzbank setzt bei Dresdner-Integration auf Informatica

CIO.de Haben Sie ein praktisches Beispiel?

Neuer: Auch bei der Übernahme der Dresdner Bank durch die Commerzbank ist Informatica-Software im Einsatz. In der der Vergangenheit hätte man hier alle Daten eins zu eins integriert, das tut man heute aber nicht mehr. Denn rund 30 Prozent der Daten brauchen Sie überhaupt nicht mehr. Die Zeit und die Arbeit muss man investieren, um die Daten zu profilieren und festzustellen, in welchem Zustand sie sich befinden, bevor man sie in das nächste System überführt.

Quelle: CIO.de

Otto Neuer, Managing Director Central Europe bei Informatica, ist als Geschäftsführer der Informatica GmbH für den Vertrieb im deutschsprachigen Markt verantwortlich. Vor seinem Einstieg bei Informatica war er in leitenden Positionen unter anderem bei Itesoft, Cognos, Front Range Solutions, sowie Seagate Software tätig.