Investigative Datenanalyse

Panama Papers: Dank Cloud bald für alle

14.04.2016

Von

Simon Hülsbömer betreut als Senior Research Manager Studienprojekte in der Marktforschung von CIO, CSO und COMPUTERWOCHE. Zuvor entwickelte er Executive-Weiterbildungen und war rund zehn Jahre lang als (leitender) Redakteur tätig. Hier zeichnete er u.a. für die Themen IT-Sicherheit und Datenschutz verantwortlich.

Alle Posts des Autors Email: Connect:

Bevor Süddeutsche, WDR und NDR ihre Enthüllungen über die Panama Papers veröffentlichen konnten, half das internationale Journalistenkonsortium ICIJ bei der technischen Vorarbeit, um die enormen Datenmengen in eine durchsuchbare Form zu bringen. Wir sprachen mit ICIJ-Vertreterin Mar Cabra über die technischen Hintergründe.

Die 11,5 Millionen Dokumente der panamaischen Kanzlei Mossack Fonseca über unzählige Briefkastenfirmen von Persönlichkeiten und Unternehmen aus der ganzen Welt beherrschen seit etwas mehr als einer Woche die nationalen und internationalen Medien. Bei einer solch immensen Menge an Daten stellt sich natürlich die Frage, wie es einigen wenigen Journalisten gelingt, diese Dokumente auszuwerten und ihnen die interessantesten Geheimnisse zu entlocken. Einen Großteil der Vorarbeit koordinierte das ICIJ - das International Consortium of Investigative Journalism, das bereits die technische Basis für Recherchen rund um die "Offshore-Leaks", die "Lux-Leaks" und die "Swiss-Leaks" legte. Das ICIJ sorgte dafür, die Panama-Dokumente für Journalisten weltweit durchsuchbar zu machen. Die Spanierin Mar Cabra arbeitet in der "Data and Research Unit" des ICIJ und setzt sich seit rund einem Jahr intensiv mit den "Panama Papers" auseinander. Wir haben mit ihr über die technischen Hintergründe dieses Großprojekts gesprochen.

Mar Cabra kümmert sich im ICIJ um die Panama Papers.
Foto: Antonio Delgado

CW: Die "Panama Papers" sind die größte Datenmenge, mit der Journalisten je innerhalb eines Rechercheprojekts gearbeitet haben. Es geht um 2,6 Terabyte an Daten - E-Mails, PDF-Dokumente, Bilder und Datenbankauszüge. Wie konnten Sie diese Datenmenge analysieren und durchsuchbar machen?

MAR CABRA: Das ist bereits die vierte Offshore-Leak-Recherche, die wir im ICIJ angehen. Unsere Erfahrung hat gezeigt, dass wir als erstes immer verstehen müssen, um was für Daten es sich überhaupt handelt. Also haben wir in den ersten Monaten der Recherche nichts anderes gemacht, als zu verstehen, in welchen Formaten die Dokumente vorliegen und wie wir sie am besten weiterverarbeiten können. Dafür haben wir auf bewährte Software zurückgegriffen, die wir schon früher im Einsatz hatten, diese aber auf den Umgang mit den immensen Datenmengen hin weiterentwickelt. Zunächst brauchten wir eine Plattform, auf der wir alle Dateien ablegen konnten. Leider waren knapp ein Drittel davon Bilddateien im TIF- und im PDF-Format. Also mussten wir diese mit OCR-Software zunächst in Text umwandeln.

Anschließend haben wir sie auf einer zentralen Cloud-Plattform abgelegt - in diesem Fall der Graph-Datenbanksoftware Neo4j -, sodass sie von überall auf der Welt aus durchsuchbar wurden. Gleichzeitig stellten wir fest, dass wir Teile einer Mossack-Fonseca-Datenbank zugespielt bekommen hatten über rund 200.000 Briefkastenfirmen in Steuerparadiesen, für die 21 Gerichtsbarkeiten zuständig sind. Um diese Datensätze visualisieren zu können, haben wir diese Datensätze zunächst ebenfalls in Neo4j importiert, dann aber über die Graph-Visualisierungssoftware Linkurio.us weiterverarbeitet. Hier wurden die Zusammenhänge zwischen den einzelnen Briefkastenfirmen optisch sehr schnell deutlich - ihre Betreiber, ihre Herkunftsorte. Zusammenfassend lässt sich sagen, dass wir mit den zwei Cloud-Tools Neo4j und Linkurio.us die 2,6 Terabyte an Daten verarbeiten konnten.

Datenmassen durchsuchbar machen

CW: Welche Teile der Recherche ließen sich automatisieren und was musste händisch erfolgen?

CABRA: Wir konnten nichts automatisieren. 11,5 Millionen Dokumente zu verarbeiten, dauert einfach seine Zeit. Wir haben viel Zeit und Arbeit in die Verbesserung der Plattformen gesteckt. Wir mussten ja auch immer bedenken, dass die Nutzer und Leser unserer Arbeit aus allen Bereichen kommen - auf der einen Seite sind das investigative Journalisten, die aus den Daten sehr gute Geschichten machen, die aber nicht so gut mit Technologie umgehen können. Auf der anderen Seite sind das die technisch versierten Journalisten, die alles über Verschlüsselung wissen und sich mit IT bestens auskennen, teilweise sogar selbst als Softwareentwickler tätig sind. Wir müssen also verschiedene Zielgruppen mit auf sie zugeschnittenen Angeboten bedienen.

Es geht um die einfache Dokumentensuche, die sich wie Google bedienen lässt, mit der die Panama Papers durchsuchbar sind. Es geht aber auch um fortgeschrittene Recherche-Services, um komplexe Zusammenhänge und Muster innerhalb der Daten erkennbar zu machen - Bankdaten, Ausweis- und Passdaten. Es geht um Datenvisualisierungswerkzeuge, mit denen jeder intuitiv arbeiten kann. Wir haben Neo4j und Linkurio.us also so in unser Angebot integriert, dass sowohl unbedarfte als auch fortgeschrittene Nutzer mit den Panama Papers arbeiten und die Dinge abfragen können, die sie interessieren. Wer sich mit der Neo4j-Sprache Cypher auskennt, kann beispielsweise auch Abfragen à la "zeige mir alle Personen, die mehr als 20 Briefkastenfirmen betreiben" starten. Uns war wichtig, dass wirklich jeder mit den Dokumenten arbeiten kann. Wir haben einen Programmierer ein Jahr lang in Vollzeit beschäftigt, um diese Plattform adäquat aufzusetzen.

CW: Was war die größte Herausforderung in diesem Prozess?

CABRA: Die technische Projektentwicklung. Wir mussten eine sehr komplexe Prozesskette aufsetzen, in deren Verlauf die Originaldokumente erst auf ihre Maschinenlesbarkeit hin geprüft wurden. War das der Fall, wanderten sie direkt in den Dokumentendindex. Konnten Sie nicht gelesen werden, mussten sie zunächst eine Schleife durch die OCR-Software drehen. Das alles geschah gleichzeitig mithilfe von Parallelverarbeitungstechnik auf 30-40 Maschinen in der Cloud. Sonst hätte das alles ewig gedauert. Das Projekt zeigt einmal mehr, wie wichtig bei einem journalistischen Investigativprojekt heutzutage auch die technische Seite geworden ist.

Datenanalyse als Service
Analytics Tools aus der Cloud können den Einstieg in die Datenanalyse erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Wir stellen fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können.
AWS Elastic MapReduce
Seit der Version 4.1.0 von Amazon Elastic MapReduce lassen sich Cluster im laufenden Betrieb verkleinern.
Google Cloud Platform
Mit dem Google Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.
Microsoft Azure
Ein Hadoop-Cluster ist in HDInsight von Microsoft in zirka 10 bis 15 Minuten verfügbar.
IBM Analytics
Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen.
SAP HANA Cloud Platform
LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.

Namensliste hinein, Briefkastenfirma heraus

CW: Sie haben die Verbesserung der Plattformen angesprochen - inwiefern haben Sie die eingesetzten Tools verbessert?

CABRA: Da wir so viele verschiedene Dateiformate vorliegen hatten, bekamen wir ganz oft das Feedback von Journalisten, dass es alles viel zu aufwändig sei, hier zu recherchieren. Viele wünschten sich Hilfe beim Durchforsten der Daten, damit sie für ihr jeweiliges Land die interessanten Daten herausfiltern können. Wir entwickelten deshalb ein Feature für diesen Fall. Sie können die Dokumentensuche mit einer von ihnen erstellten Namensliste füttern und prüfen, ob jemand von dieser Liste in den Dokumenten auftaucht. Das System wirft nach einigen Minuten ein Dokument aus, in dem der Teil Ihrer Namensliste steht, der eventuell auch in der Datenbank steht. Solche Abfragen waren in früheren Projekten nicht nötig und daher auch bisher nicht möglich. Nun sind sie es.

CW: Wie viele Personen sind bei ICIJ in das Projekt eingebunden?

CABRA: Wir haben ein kleines Team mit zwölf Leuten. Sechs davon arbeiten wie ich in der Data and Research Unit und sind mit der technischen Verarbeitung betraut. Drei davon sind Journalisten, drei Entwickler - davon hat sich einer ausschließlich um die unstrukturierten Daten gekümmert, ein anderer um die strukturierten Daten und die Möglichkeiten der grafischen Aufbereitung.

CW: Was können wir in den nächsten Wochen und Monaten noch erwarten?

CABRA: Wir haben jetzt die öffentliche Wahrnehmung der Geschichte, auf die wir lange hingearbeitet haben. Hunderte von Politikern in mehr als 50 Staaten sind bereits bekannt, die in den Panama Papers auftauchen. Der nächste große Schritt wird dann Anfang Mai folgen - dann werden wir die Namen der 200.000 Firmen veröffentlichen, die über Mossack Fonseca eröffnet wurden. Diese Daten werden über die ICIJ-Website für jeden - egal ob Journalisten, Strafverfolgungsbehörden oder ganz normaler Bürger - zugänglich sein. Schon jetzt finden sich viele Tausend Offshore-Firmen dort, diese Datenbank werden wir um die Inhalte der Panama Papers ergänzen. Auch bieten wir weitere grafische Auswertungsmöglichkeiten an, damit jeder beliebige Querverbindungen zwischen den Daten erstellen kann.

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Big Data

Big Data

Investigative Datenanalyse

Panama Papers: Dank Cloud bald für alle

Datenmassen durchsuchbar machen

Namensliste hinein, Briefkastenfirma heraus

Aktuelle Technologie-Themen:

Aktuelle Artikel im Überblick:

Aktuelle Artikel im Überblick:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Events

Aktuelle Podcasts im Überblick:

Aktuelle Webcasts im Überblick:

Aktuelles aus den Hot Topics auf COMPUTERWOCHE: -Anzeige-

Aktuelle Technologie-Themen:

Aktuelle Management-Themen:

Aktuelle Karriere-Themen:

Big Data

Big Data

Datenmassen durchsuchbar machen

Namensliste hinein, Briefkastenfirma heraus

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor