Interview zum Zensus 2011

Monsterprojekt Datenintegration

06.05.2011
Von Johannes Klostermeier

CIO.de: Die Daten sind trotzdem akkurat?

Neuer: Ja. Man kann von der Stichprobe auf das Ganze schließen. Auch das wäre vor einiger Zeit noch nicht gegangen. Es muss eben in einer frühen Phase eine Datenprofilierung durchgeführt werden, um zu klären: Welche Trends gibt es? Wo können Fehler auftreten? Je früher Sie das erkennen, desto besser können Sie ihre Regeln abbilden. Damit erreichen Sie realistische Ergebnisse.

Datenschutz ist eine Frage der Firmenkultur

CIO.de: Wie sieht es bei den Firmen, für die Sie arbeiten, mit Datenschutzbedenken aus?

Neuer: Wir können als Anbieter von Datenintegrations-Lösungen nur die technologische Seite abdecken. Wir können nur Technologie bereitstellen, die dabei hilft, Daten innerhalb der vereinbarten Regeln in einem Unternehmen zu behandeln. Was aber bleibt, ist die Frage nach der Firmenkultur. Unsere Kunden müssen intern klären, wie sie als Firma mit Daten und Informationen umgehen wollen Zuerst einmal braucht man einen Konsens zwischen allen Beteiligten im Unternehmen über die Frage: Wie offen wollen wir mit Informationen umgehen? Wir stellen in dieser Hinsicht aktuell übrigens sehr viel Bewegung fest.

CIO.de Wie groß sind die Datenmengen, mit denen Sie es in der Regel zu tun haben?

Neuer: Die Herausforderung ist nicht die Menge als solche, es ist vielmehr von Bedeutung, wie die Daten zusammen kommen. Wir haben in Deutschland vergleichbare Projektgrößenordnungen, wenn auch die Art der Daten eine ganz andere ist. Ein Projekt, das mir einfällt, haben wir vor zwei Jahren mit der Deutschen Börse realisiert. Dabei ging es um den gesamten Finanzmarkt und alle Produkte, die dort analysiert wurden. Da ging es um Hunderte von Terabytes. Dabei macht vor allem die Komplexität der Daten das Projekt so herausfordernd.

Es geht um zwei Datengruppen: Das eine sind die konventionellen, die strukturierten Daten, die wir in standardisierter Form in den Datenbankensystemen vorhalten. Das andere sind die wenig bis nichtstrukturierten Daten, das wird in Zukunft die Majorität der Daten sein, mit der wir arbeiten. Das sind HTML-Formate, PDFs und E-Mailkonversation. Nehmen Sie die neuen sozialen Netze. Das sind alles Daten, die man auswerten muss, wenn man seine Kunden oder seine Bürger verstehen will. Die Integration ist hier sehr aufwendig und komplex, weil die Daten kein normales Format haben.