Investigative Datenanalyse

Panama Papers: Dank Cloud bald für alle

Simon verantwortet auf Computerwoche online redaktionell leitend überwiegend alle Themen rund um IT-Sicherheit, Risiko-Management, Compliance und Datenschutz. Er entwickelt darüber hinaus innovative Darstellungsformate, beschäftigt sich besonders gerne mit Datenanalyse und -visualisierung und steht für Reportagen und Interviews vor der Kamera. Außerdem betreut der studierte Media Producer den täglichen Früh-Newsletter der Computerwoche. Aufgaben in der Traffic- und Keyword-Analyse, dem Content Management sowie die inoffizielle Funktion "redaktioneller Fußballexperte" runden sein Profil ab.
Bevor Süddeutsche, WDR und NDR ihre Enthüllungen über die Panama Papers veröffentlichen konnten, half das internationale Journalistenkonsortium ICIJ bei der technischen Vorarbeit, um die enormen Datenmengen in eine durchsuchbare Form zu bringen. Wir sprachen mit ICIJ-Vertreterin Mar Cabra über die technischen Hintergründe.

Die 11,5 Millionen Dokumente der panamaischen Kanzlei Mossack Fonseca über unzählige Briefkastenfirmen von Persönlichkeiten und Unternehmen aus der ganzen Welt beherrschen seit etwas mehr als einer Woche die nationalen und internationalen Medien. Bei einer solch immensen Menge an Daten stellt sich natürlich die Frage, wie es einigen wenigen Journalisten gelingt, diese Dokumente auszuwerten und ihnen die interessantesten Geheimnisse zu entlocken. Einen Großteil der Vorarbeit koordinierte das ICIJ - das International Consortium of Investigative Journalism, das bereits die technische Basis für Recherchen rund um die "Offshore-Leaks", die "Lux-Leaks" und die "Swiss-Leaks" legte. Das ICIJ sorgte dafür, die Panama-Dokumente für Journalisten weltweit durchsuchbar zu machen. Die Spanierin Mar Cabra arbeitet in der "Data and Research Unit" des ICIJ und setzt sich seit rund einem Jahr intensiv mit den "Panama Papers" auseinander. Wir haben mit ihr über die technischen Hintergründe dieses Großprojekts gesprochen.

Mar Cabra kümmert sich im ICIJ um die Panama Papers.
Mar Cabra kümmert sich im ICIJ um die Panama Papers.
Foto: Antonio Delgado

CW: Die "Panama Papers" sind die größte Datenmenge, mit der Journalisten je innerhalb eines Rechercheprojekts gearbeitet haben. Es geht um 2,6 Terabyte an Daten - E-Mails, PDF-Dokumente, Bilder und Datenbankauszüge. Wie konnten Sie diese Datenmenge analysieren und durchsuchbar machen?

MAR CABRA: Das ist bereits die vierte Offshore-Leak-Recherche, die wir im ICIJ angehen. Unsere Erfahrung hat gezeigt, dass wir als erstes immer verstehen müssen, um was für Daten es sich überhaupt handelt. Also haben wir in den ersten Monaten der Recherche nichts anderes gemacht, als zu verstehen, in welchen Formaten die Dokumente vorliegen und wie wir sie am besten weiterverarbeiten können. Dafür haben wir auf bewährte Software zurückgegriffen, die wir schon früher im Einsatz hatten, diese aber auf den Umgang mit den immensen Datenmengen hin weiterentwickelt. Zunächst brauchten wir eine Plattform, auf der wir alle Dateien ablegen konnten. Leider waren knapp ein Drittel davon Bilddateien im TIF- und im PDF-Format. Also mussten wir diese mit OCR-Software zunächst in Text umwandeln.

Anschließend haben wir sie auf einer zentralen Cloud-Plattform abgelegt - in diesem Fall der Graph-Datenbanksoftware Neo4j -, sodass sie von überall auf der Welt aus durchsuchbar wurden. Gleichzeitig stellten wir fest, dass wir Teile einer Mossack-Fonseca-Datenbank zugespielt bekommen hatten über rund 200.000 Briefkastenfirmen in Steuerparadiesen, für die 21 Gerichtsbarkeiten zuständig sind. Um diese Datensätze visualisieren zu können, haben wir diese Datensätze zunächst ebenfalls in Neo4j importiert, dann aber über die Graph-Visualisierungssoftware Linkurio.us weiterverarbeitet. Hier wurden die Zusammenhänge zwischen den einzelnen Briefkastenfirmen optisch sehr schnell deutlich - ihre Betreiber, ihre Herkunftsorte. Zusammenfassend lässt sich sagen, dass wir mit den zwei Cloud-Tools Neo4j und Linkurio.us die 2,6 Terabyte an Daten verarbeiten konnten.

Datenmassen durchsuchbar machen

CW: Welche Teile der Recherche ließen sich automatisieren und was musste händisch erfolgen?

CABRA: Wir konnten nichts automatisieren. 11,5 Millionen Dokumente zu verarbeiten, dauert einfach seine Zeit. Wir haben viel Zeit und Arbeit in die Verbesserung der Plattformen gesteckt. Wir mussten ja auch immer bedenken, dass die Nutzer und Leser unserer Arbeit aus allen Bereichen kommen - auf der einen Seite sind das investigative Journalisten, die aus den Daten sehr gute Geschichten machen, die aber nicht so gut mit Technologie umgehen können. Auf der anderen Seite sind das die technisch versierten Journalisten, die alles über Verschlüsselung wissen und sich mit IT bestens auskennen, teilweise sogar selbst als Softwareentwickler tätig sind. Wir müssen also verschiedene Zielgruppen mit auf sie zugeschnittenen Angeboten bedienen.

Es geht um die einfache Dokumentensuche, die sich wie Google bedienen lässt, mit der die Panama Papers durchsuchbar sind. Es geht aber auch um fortgeschrittene Recherche-Services, um komplexe Zusammenhänge und Muster innerhalb der Daten erkennbar zu machen - Bankdaten, Ausweis- und Passdaten. Es geht um Datenvisualisierungswerkzeuge, mit denen jeder intuitiv arbeiten kann. Wir haben Neo4j und Linkurio.us also so in unser Angebot integriert, dass sowohl unbedarfte als auch fortgeschrittene Nutzer mit den Panama Papers arbeiten und die Dinge abfragen können, die sie interessieren. Wer sich mit der Neo4j-Sprache Cypher auskennt, kann beispielsweise auch Abfragen à la "zeige mir alle Personen, die mehr als 20 Briefkastenfirmen betreiben" starten. Uns war wichtig, dass wirklich jeder mit den Dokumenten arbeiten kann. Wir haben einen Programmierer ein Jahr lang in Vollzeit beschäftigt, um diese Plattform adäquat aufzusetzen.

CW: Was war die größte Herausforderung in diesem Prozess?

CABRA: Die technische Projektentwicklung. Wir mussten eine sehr komplexe Prozesskette aufsetzen, in deren Verlauf die Originaldokumente erst auf ihre Maschinenlesbarkeit hin geprüft wurden. War das der Fall, wanderten sie direkt in den Dokumentendindex. Konnten Sie nicht gelesen werden, mussten sie zunächst eine Schleife durch die OCR-Software drehen. Das alles geschah gleichzeitig mithilfe von Parallelverarbeitungstechnik auf 30-40 Maschinen in der Cloud. Sonst hätte das alles ewig gedauert. Das Projekt zeigt einmal mehr, wie wichtig bei einem journalistischen Investigativprojekt heutzutage auch die technische Seite geworden ist.

Namensliste hinein, Briefkastenfirma heraus

CW: Sie haben die Verbesserung der Plattformen angesprochen - inwiefern haben Sie die eingesetzten Tools verbessert?

CABRA: Da wir so viele verschiedene Dateiformate vorliegen hatten, bekamen wir ganz oft das Feedback von Journalisten, dass es alles viel zu aufwändig sei, hier zu recherchieren. Viele wünschten sich Hilfe beim Durchforsten der Daten, damit sie für ihr jeweiliges Land die interessanten Daten herausfiltern können. Wir entwickelten deshalb ein Feature für diesen Fall. Sie können die Dokumentensuche mit einer von ihnen erstellten Namensliste füttern und prüfen, ob jemand von dieser Liste in den Dokumenten auftaucht. Das System wirft nach einigen Minuten ein Dokument aus, in dem der Teil Ihrer Namensliste steht, der eventuell auch in der Datenbank steht. Solche Abfragen waren in früheren Projekten nicht nötig und daher auch bisher nicht möglich. Nun sind sie es.

CW: Wie viele Personen sind bei ICIJ in das Projekt eingebunden?

CABRA: Wir haben ein kleines Team mit zwölf Leuten. Sechs davon arbeiten wie ich in der Data and Research Unit und sind mit der technischen Verarbeitung betraut. Drei davon sind Journalisten, drei Entwickler - davon hat sich einer ausschließlich um die unstrukturierten Daten gekümmert, ein anderer um die strukturierten Daten und die Möglichkeiten der grafischen Aufbereitung.

CW: Was können wir in den nächsten Wochen und Monaten noch erwarten?

CABRA: Wir haben jetzt die öffentliche Wahrnehmung der Geschichte, auf die wir lange hingearbeitet haben. Hunderte von Politikern in mehr als 50 Staaten sind bereits bekannt, die in den Panama Papers auftauchen. Der nächste große Schritt wird dann Anfang Mai folgen - dann werden wir die Namen der 200.000 Firmen veröffentlichen, die über Mossack Fonseca eröffnet wurden. Diese Daten werden über die ICIJ-Website für jeden - egal ob Journalisten, Strafverfolgungsbehörden oder ganz normaler Bürger - zugänglich sein. Schon jetzt finden sich viele Tausend Offshore-Firmen dort, diese Datenbank werden wir um die Inhalte der Panama Papers ergänzen. Auch bieten wir weitere grafische Auswertungsmöglichkeiten an, damit jeder beliebige Querverbindungen zwischen den Daten erstellen kann.

Auf seiner Website wird das ICIJ Anfang Mai einen weiteren Scoop bringen - dann sollen die 200.000 panamaischen Briefkastenfirmen für jedermann öffentlich gemacht werden.
Auf seiner Website wird das ICIJ Anfang Mai einen weiteren Scoop bringen - dann sollen die 200.000 panamaischen Briefkastenfirmen für jedermann öffentlich gemacht werden.