Der Flügelschlag eines Schmetterlings

Daten - das filigrane Gut

19.10.2016
Dr. Wilfried Lyhs ist Geschäftsführer von Hilderts & Partner Consultants GmbH in Berlin, das CIOs als Berater, Interim- und Projektmanager unterstützt. Als promovierter Physiker hat er Organisationen für Softwareentwicklung geführt und große IT- und Automationsprojekte erfolgreich geführt. Während seiner Zeit als global CIO wurde Wilfried Lyhs mehrmals für seine Leistungen bei der Restrukturierung von IT und insbesondere der IT-Kostenverrechnung ausgezeichnet. Er hat zu vielen Themen der IT Vorträge gehalten und Veröffentlichungen erstellt.
Wenn Algorithmen Daten ohne gesicherte Qualität oder eingeschränkter Gültigkeit nutzen, um Entscheidungen zu fällen, dann können die Konsequenzen fatal sein.

Als die Chaostheorie aus den Anfängen im 18. Jahrhundert 100 Jahre später den Schritt in die populärwissenschaftlichen Veröffentlichungen schaffte, machte die Metapher des Schmetterlingseffets die Runde, nach der der Flügelschlag eines Schmetterlings in Brasilien in Texas einen Tornado auslösen könne. Mathematischer Hintergrund war die Erkenntnis, dass in nichtlinearen Systemen eine geringfügige Änderung der Anfangsbedingungen die Lösung dramatisch beeinflussen kann.

So, wie der Flügelschlag eines Schmetterlings nach einer Metapher einen Tornado auslösen kann, so empfindlich können auch Analysen auf geringfügige - auch unbeabsichtigte - Manipulationen in Datenbeständen reagieren.
So, wie der Flügelschlag eines Schmetterlings nach einer Metapher einen Tornado auslösen kann, so empfindlich können auch Analysen auf geringfügige - auch unbeabsichtigte - Manipulationen in Datenbeständen reagieren.
Foto: kaisaya - shutterstock.com

Im Hinblick darauf, dass die moderne Softwaretechnik uns in die Lage versetzt, durch algorithmische Auswertung von großen Datenbeständen Entscheidungen zu treffen, die von Menschen nicht mehr oder zumindest nicht in "Echtzeit" nachvollzogen werden können, stellt sich die Frage, welchen Einfluss die Qualität von Daten auf die Qualität der Entscheidung hat. Befindet sich der Entscheidungsalgorithmus in einem Bereich, in dem eine Unschärfe der Eingangsdaten nur eine geringe Veränderung des Ergebnisses oder gar eine Unempfindlichkeit gegenüber Variationen zur Folge hat, oder kommt es zum sprichwörtlichen Tornado durch einen winzigen Flügelschlag?

Daten sind nicht sauber erfasst

Die Situation ist mit der des bekannten Höhlengleichnisses von Platon vergleichbar, bei dem die Höhlenbewohner die Schatten, das heißt die Projektionen auf der Höhlenwand wahrnehmen und die um mehrere Dimensionen verkleinerte Projektion für die Realität halten. Wir laufen Gefahr, dass wir mit unseren Datensammlungen dem gleichen Irrtum wie die Höhlenbewohner unterliegen und glauben, die Wirklichkeit vollständig abzubilden, nur weil sehr viele Daten über sie gesammelt wurden. Wobei wir doch seit Hamlet wissen, dass es mehr "Ding' im Himmel und auf Erden gibt, als unsere" Datenbanken sich erträumen.

Die Qualität der gesammelten Daten ist in vielerlei Hinsicht nicht sauber erfasst. Bei vielen Datensammlungen werden im Laufe ihres Lebenszyklus Felder weggelassen oder ergänzt, weil sie als fehlend erkannt wurden. Unter Umständen werden Erhebungsverfahren, Messverfahren oder Algorithmen, mit denen aus Messgrößen weitere Größen abgeleitet werden, verändert, ohne dass dies in den Daten deutlich dokumentiert wird.
Beliebt ist auch, Randbedingungen, Grenzen der Gültigkeit von Zahlen nicht mit zu erfassen und sich daher der Möglichkeit zu berauben, festzustellen, wenn die Messwerte fragwürdig oder ungültig werden, weil sie außerhalb des Gültigkeitsbereiches der Algorithmen oder des Messbereiches liegen. Das führt zur zumindest partiellen Inkonsistenz der Datensammlungen, das heißt zu einer unscharfen Projektion der Realität. In der Regel wird bei Datenbanken aus Kostengründen auf automatische oder manuelle Plausibilitätsprüfungen verzichtet.

Jedes Datum sollte auch ein Entstehungs- und ein Löschdatum besitzen. Gerade bei der Berücksichtigung der Lebensdauer von Daten sieht es ganz besonders schlecht in Datensammlungen aus, da kein Datensammler die mühsam gesammelten Daten gerne wieder löscht. Dies führt dazu, dass die Validität von Daten teilweise fragwürdig ist, dies dem Nutzer aber in der Regel verborgen bleibt.

Der Fall des Spaniers, der 2010 seinen Hausbaukredit nicht erhielt, da bei Google sein Name im Zusammenhang mit einer gepfändeten Immobilie erschien und er dagegen klagte, zeigt, dass einerseits falsche Daten dramatische Konsequenzen haben können. Herr Kurnaz kann auch darüber berichten, wie er zu einem Freiflug nach Guantanamo gekommen ist - und andererseits die fehlende Zwangslöschung, auch von wahren Daten, zu einer erheblichen Beeinträchtigung privaten Lebens führen kann.

Das "Recht vergessen zu werden" wird trotz der Rechtsprechung durch den EuGH noch heftig diskutiert. Eine gesetzlich definierte Lebensdauer zumindest von personenbezogenen Daten ist im Sinne datentechnischer Hygiene zu begrüßen, wenngleich fraglich ist, wie diese im Netz vollständig realisiert werden kann.

Algorithmen, glaubhaft oder nicht

Der Physiker wendet die Methode der Fehlerfortpflanzung an, um die Auswirkung von Ungenauigkeiten der Messgrößen auf die berechnete Zielgröße abzuschätzen. Für Algorithmen in Data Warehouses oder BI-Systemen gibt es diese Abschätzungen allerdings nicht. Dem Benutzer eines Algorithmus oder einer Datensammlung wird die Unschärfe seiner Recherche nicht deutlich gemacht. Siri macht keine Angaben darüber, mit welchem Grad an Exaktheit die gegebene Antwort zustande gekommen ist. Wohl dem, dessen Allgemeinbildung ihm gestattet, die Plausibilität von Siris Aussagen zu überprüfen.

Wissenschaftler und Manager träumen davon, dass uns armen, vom täglichen Entscheidungsnotstand überforderten Menschen, Entscheidungen von Automaten abgenommen werden. Dabei ist der Mensch durch seine Evolution doch gerade bei den Entscheidungen auf der Basis unsicherer Daten außerordentlich effektiv. Wollen wir das Entscheiden Automaten überlassen, nur um Schuld für Fehlentscheidungen an eine Maschine delegieren zu können? Sollten wir nicht lieber dafür sorgen, dass hochgradige Risiken durch unkalkulierbares Management entsorgt werden?

Es sieht so aus, dass einige große Datensammler ein nicht kontrollierbares Monstrum heranziehen: keiner weiß, wo die Daten herkommen, wie genau, richtig oder legal sie sind. Aber die Tatsache, dass sie existieren, wird hinlänglich als Beweis dafür verstanden werden, dass sie "so falsch nicht sein können". Wenn dann der Einfachheit halber noch automatische Entscheidungen getroffen werden, dann gnade uns Gott.