Was ist Differential Privacy?

Apple und die Sache mit den Daten

Axel Oppermann beschäftigt sich mit (fast) allem, was in die Bereiche Social Enterprise, Cloud Computing und Microsoft hineinfällt. Axel schreibt auf Computerwoche als Experte zu den Themen Enterprise Cloud, Digital Enterprise und dem IT-Lieferanten Microsoft. Als IT-Analyst berät er Anwender bei der Planung und Umsetzung ihrer IT-Strategien. Axel ist Geschäftsführer des Beratungs- und Analystenhaus Avispador aus Kassel.
Apple hat angekündigt Differential Privacy für die Analyse der Kundendaten zu nutzen. Fährt Apple mit dieser Strategie besser als Google, Microsoft, Facebook & Co.?

Alle wollen Ihre Daten! Zumindest fast alle der großen Mega-Tech-Hyper-Super-Social-Cloud-Mobile-Follower-Anbieter wollen Ihre Daten. Google, Facebook, Microsoft und Co. brauchen die Informationen der Konsumenten - der Menschen - um ihre Algorithmen zu füttern und stärker zu machen. Sie erhoffen sich davon, Sie als Menschen besser kennenzulernen, Ihr Verhalten vorherzusagen und dieses Wissen im besten Falle zu monetarisieren. Nebenbei verkaufen sie ihre Algorithmen, ihre kognitiven intelligenten APIs und smarten Services.

Doch mit den Daten ist es so eine Sache. Auch wenn kaum noch jemand seine (digitale) Privatsphäre schützt, reagieren einige Menschen auf die Verarbeitung ihrer Daten sensibel. Diese schaffen es, auch Menschen auf die Barrikaden zu bringen, die sich zuvor nicht sonderlich für Datenschutz interessiert haben. Kurzum: Privacy ist ein Thema. Daher positionieren sich auch sehr viele Anbieter von IT und Digitalem mit dem vermeintlichen Schutz des ach so hohen Gutes Privacy.

Apple und die Privatsphäre

Bis jetzt war Apple in der Vorreiterrolle, wenn es um den Schutz der Privatsphäre seiner Kunden ging, zumindest wurde das suggeriert. Starkes Marketing - gute Positionierung gegen die Wettbewerber. Nicht mehr und nicht weniger. Im Marketingsprech klingt das dann ungefähr so: "Ja, unser Ziel ist es, tolle Produkte zu verkaufen."

Aber gerade diese "tollen Produkte" müssen natürlich ebenfalls weiterentwickelt werden. Eine Auswertung des Nutzungsverhaltens der Apple-User ist dafür ein probates Mittel. So ist das halt. Kann man gut finden, muss man aber nicht. Gemacht wird es trotzdem so. Erschwerend kommt noch hinzu, dass es gerade jetzt - wo zwar noch immer Milliarden verdient werden, aber die Wachstumsgeschichte nicht mehr stimmt und so langsam das Talent ausgeht - gilt, neue Umsatzquellen zu erschließen. Scheiß auf Marketing, scheiß auf den Kunden, scheiß auf den letzten Funken von Moral und Ethik. Gesagt, getan. Da das Image also ohnehin schon ruiniert ist, steigt Apple in die Verarbeitung der Daten der Kunden ein.

So richtig will man sich die Finger aber noch nicht schmutzig machen, die eigene Weste soll ja zumindest weißer bleiben als die der Konkurrenz. Rückschlüsse aus dem Verhalten und den Kommunikationsgewohnheiten der einzelnen Nutzer sollen nicht gezogen, sondern den Kunden lediglich nützlichere Empfehlungen angeboten werden. Frei nach dem Motto: "Wasch mich, aber mach mich nicht nass". Eigentlich will man alles über den Anwender wissen, aber dann irgendwie doch nicht - jedenfalls nicht auf Ebene des Individuums, wenigstens nicht sofort und schon gar nicht öffentlich. Und des Weiteren...Ach, machen wir es kurz: Apple nutzt Differential Privacy. Differential what? Privacy wer? Was soll das denn sein?

Was ist Differential Privacy?

Erklären wir es zunächst am Beispiel Apple: Wie bereits erwähnt, will Apple tolle Produkte verkaufen. Das ging lange gut, jetzt nicht mehr so. Okay - frei nach Henry Ford: "Frag' ich also mal den Kutscher, ob er schnellere Pferde will" - oder so. Heutzutage wird aber keiner mehr gefragt, sondern persönliche Nutzerdaten werden einfach analysiert.

Das lässt sich am besten bewerkstelligen, indem das Nutzungsverhalten der Apple-Nutzer ausgewertet wird. Gerade für solche Auswertungen müssen Daten gesammelt werden. Und wie es nun mal so ist, erhält man durch das Sammeln von anonymen Daten in der Regel weniger aussagekräftige Resultate. Deshalb müssen also personalisierte Daten erhoben werden. Dabei soll - im Falle von Apple - der Unterschied zu anderen Unternehmen aber darin bestehen, dass die gesammelten Daten auf eine andere Art und Weise ausgewertet werden. Das aktuelle Marketingversprechen dabei ist, zwar personalisierte Nutzerdaten zu sammeln, diese aber so auszuwerten, dass am Ende keine Rückschlüsse auf ein einzelnes Individuum möglich sind. Schließlich wird so dann auch die Privatsphäre der Benutzer gewahrt, vorausgesetzt, die Daten werden nicht weitervermittelt oder gar veröffentlicht.

Das Konzept, bei der Verarbeitung von Daten die Privatsphäre des Einzelnen zu bewahren, ist bereits seit längerem bekannt und wird als Differential Privacy bezeichnet. Es geht dabei darum, so viel wie möglich über eine Zielgruppe zu lernen, andererseits aber nichts über eine einzelne Person zu erfahren. Das ist möglich, indem die Daten so ausgewertet werden, dass die Privatsphäre geschützt wird.

Hä, wie jetzt? Verstehe ich nicht!

Also: Zunächst ist generell eher unklar, wie Privatsphäre überhaupt definiert sein soll. So könnte man meinen, dass diese bereits durch das bloße Erheben von Daten verletzt wird. Das Prinzip von Differential Privacy beruht aber darauf, dass die Auswirkung des Ergebnisses einer Studie (einer Analyse) unabhängig von der Teilnahme eines Individuums an besagter Studie sein soll. Angenommen, es werden Alter, Geschlecht, Partner, Kinder, Qualifikation und Erwerbstätigkeit einer Zielgruppe, natürlich auf Basis eines jeden Individuums, erhoben. Das Ergebnis ist: "Menschen mit geringem Einkommen sind häufiger krank". Die Wirkung dieses Ergebnisses könnte sein, dass Versicherungen ihre Beitragssätze anpassen, sodass Personen mit einem geringen Einkommen einen höheren Beitrag entrichten müssen. Durch das Ergebnis der Studie wären Teilnehmer mit niedrigem Einkommen also unmittelbar betroffen. Andererseits ist es aber wichtig festzuhalten, dass keine individuellen Informationen veröffentlicht wurden. Höhere Beitragssätze würden allein dadurch zustande kommen, dass Versicherungen Informationen über das Einkommensverhältnis jedes Versicherten besitzen. Dieses Prinzip bedeutet gerade, dass das Ergebnis der Studie zustande gekommen ist, ohne persönliche Daten der Teilnehmer preiszugeben. Welche Auswirkungen das Gesamtergebnis auf ein Individuum hat, hat nichts mit Differential Privacy zu tun.

Differential Privacy versichert also, immer dasselbe Ergebnis zu erreichen, unabhängig davon, ob eine einzelne Person in der Zielgruppe ist oder nicht. Insbesondere wird hierbei aber auch abgesichert, dass das Auftreten jeder Reihe von Ergebnissen - also die Ergebnisse mehrerer Studien basierend auf verschiedenen Teilmengen derselben Grundmenge - im Grunde gleich wahrscheinlich ist, unabhängig von der Teilnahme eines Individuums. Die Wahrscheinlichkeiten werden nämlich aus zufällig ausgewählten Teilmengen bestimmt und die Aussage "im Grunde gleich wahrscheinlich" wird durch einen Parameter "?" beschrieben. Desto kleiner "?" ist, desto besser wird die Privatsphäre bewahrt.

Weiter sollte auch festgehalten werden, dass Differential Privacy eine Definition und kein Algorithmus ist. Aber natürlich werden die gesammelten Daten mithilfe von Algorithmen ausgewertet. Für diesen Kontext benutzte Algorithmen sollten also die Eigenschaft haben, dass sie die Privatsphäre schützen. Dabei soll außerdem angenommen werden, dass sich die gesammelten Daten in einer sicheren Datenbank "D" befinden. Im Grunde gibt es viele solche Algorithmen, die sich aber in der Genauigkeit der Geheimhaltung "?" unterscheiden. Für eine gegebene Aufgabe "T" und eine gegebene Geheimhaltungsquote "?" gibt es dann eine Vielzahl von Algorithmen um die Aufgabe "T" umzusetzen, wovon manche eine bessere Genauigkeit haben als andere. Für ein sehr kleines "?" kann es jedoch schwierig sein, einen passenden Algorithmus zu finden, der zudem noch genaue Ergebnisse liefert.

Das Differential-Privacy-Konzept im Detail

Das Vorgehen eines Verfahrens, welches das Konzept Differential Privacy anwendet, kann aber trotzdem beschrieben werden. Dazu soll angenommen werden, dass es eine vertrauensvolle Person gibt, die die sichere Datenbank "D" verwaltet. Zunächst werden die erhobenen personalisierten Daten in die Datenbank "D" eingespielt, wobei jede Reihe in der Datenbank die Daten einer einzelnen Person enthält. Das Ziel ist es, gleichzeitig jede einzelne Reihe zu schützen während eine statistische Auswertung auf die gesamte Datenbank angewandt wird. Dazu wird im Offline- bzw. Überwachungsmodus ein Objekt von der Datenbank erstellt, also eine Art "synthetische Datenbank". Diese "synthetische Datenbank" entsteht durch Verfremden der Originaldaten; dies ist ein einmaliger Vorgang. Nachdem die synthetische Datenbank erstellt wurde, können die Originaldaten gelöscht werden. Nachfolgend werden verschiedene Abfragen an das nun interaktive Modell gestellt. Die Abfragen werden automatisch angepasst, je nachdem, welches Resultat die Daten aufgrund der vorherigen Abfrage lieferten. Falls alle Abfragen im Voraus bekannt sind, sollte das interaktive Modell die beste Genauigkeit liefern, da es aufgrund der Kenntnis über die auszuführenden Abfragen in der Lage ist, Störungen zu korrelieren. Ist allerdings im Vorhinein nicht klar, welche Abfragen an das Modell gestellt werden sollen, so steht das interaktive Modell vor einer Herausforderung. Schließlich müssen dann alle möglichen Fragen beantwortet werden. Um die Privatsphäre zu beschützen, also die Geheimhaltungsquote "?" zu erfüllen, lässt sich dann beobachten, dass sich die Genauigkeit verschlechtert, je mehr Abfragen ausgeführt werden müssen.

Die Abfragen werden von einem sogenannten Privatsphäre-Mechanismus ausgeführt. Dieser bekommt als Eingabe die Datenbank, einige zufällige Bits und optional eine Reihe von Abfragen. Der Mechanismus erzeugt dann eine Ausgabezeichenfolge. Die Hoffnung ist, dass diese Ausgabezeichenfolge decodiert werden kann um eine relativ genaue Antwort auf die Fragen zu erhalten. Falls im Vornherein keine Abfragen in den Mechanismus übergeben wurden, so ist die Hoffnung, dass die Ausgabezeichenfolge interpretiert werden kann, um zukünftige Abfragen zu beantworten.

Es ist also ersichtlich, dass die Umsetzung von Differential Privacy recht kompliziert sein kann. Im Hinblick auf persönliche Daten kann man aber ziemlich sicher sein, dass keine individuellen Daten nach außen dringen, sofern alles richtig implementiert wurde. Dabei kommt es natürlich auch auf den Schutz der Datenbank vor Löschung der Originaldaten an.

Neben dem Differential-Privacy-Ansatz gibt es natürlich auch einige andere Ansätze, um die Privatsphäre eines Individuums zu schützen. Hinsichtlich dieser Ansätze bestehen allerdings durchaus Bedenken. Eine These ist zum Beispiel, dass Daten nicht gleichzeitig völlig anonymisiert und nützlich sein können. Gemeinhin gelten schließlich detailliertere Daten als interessanter und nützlicher. Das führt dazu, dass die Daten mitsamt persönlichen Informationen ausgewertet werden und individuelle Informationen erst im Nachhinein gelöscht werden. Hierbei ist es allerdings möglich, eine individuelle anonyme Person aufgrund der ihr zugeordneten Daten zu bestimmen. Dieses Ergebnis kann wiederum dazu benutzt werden, die anonymisierten Daten mit nicht-anonymisierten Daten abzugleichen. Auf diesem "Umweg" lassen sich dann Rückschlüsse über die Originaldaten ziehen.

Ein weiterer Kritikpunkt ist die Behauptung, dass sogenannte "zusammengefasste Ergebnisse" nicht sicher sind. Auch hier können Rekonstruierungsangriffe in solchen Datenbanken, in denen jedes Individuum einen eigenen geheimen Schlüssel besitzt, gestartet werden. Das Ziel ist es, Anfragen an die Datenbank, wie zum Beispiel "Wie viele Personen erfüllen Bedingung 'P' und haben den geheimen Schlüssel '1'?", zu stellen. Durch diese Abfrage wird die Chance erhöht, die geheimen Schlüssel von Individuen zu bestimmen.

Differential Privacy hat hier den Vorteil, dass das Zurückführen auf die Originaldaten nicht möglich ist. Das liegt daran, dass die vorliegenden Daten nicht anonymisiert, sondern wirklich verändert werden, und zwar bevor auch nur eine statistische Auswertung durchgeführt wird. Dadurch lässt sich später mit mathematischer Gewissheit sagen, dass die Daten eine Geheimhaltungsquote von "?" erfüllen, das heißt, je kleiner "?", desto sicherer sind die Daten.

Wie genau die Daten zu Beginn verfremdet werden, lässt sich nicht so leicht beantworten. So hat auch Apple über diesen Punkt bisher noch keine Aussage getroffen. Durch das Hinzufügen eines "Rauschens", also einer Art Störung, ist es aber in jedem Fall möglich, die Daten zu verfremden und gleichzeitig die gewünschten Eigenschaften zu behalten. Die gestörten Daten werden dann in neuen Einträgen gespeichert. Um den Voraussetzungen für Differential Privacy zu genügen, müssen die gestörten Daten und deren jeweiliger Originalzustand aber ununterscheidbar voneinander sein.

Von Apple ist wohl zu erwarten, dass die Verfremdung der Daten und auch die Umsetzung eines Algorithmus der die Privatsphäre bewahrt, mit viel Aufwand und relativ konsequent implementiert wird. Jedenfalls zunächst. So lange bis der Hunger, beziehungsweise die Gier nach Daten, größer wird. Ganz nach dem Motto: "Wer einmal dran geleckt, der weiß wie's schmeckt!".

Sollten andere Unternehmen dem Beispiel folgen?

Theoretisch ist es aber auch für andere große oder kleine Unternehmen möglich, statistische Auswertungen unter Beachtung von Differential Privacy durchzuführen. Die Theorie hinter diesem Konzept ist für jeden zugänglich und es existiert bereits eine Vielzahl konkreter Algorithmen. Diese beziehen sich zwar auf spezielle Fallstudien, Anpassungen sind aber gleichwohl möglich. Natürlich sollten die oben beschriebenen Schritte beachtet werden. Bei dem Verfremden der Daten kann dabei auch auf relativ einfache Ansätze zurückgegriffen werden. Der einfachste Ansatz ist, die Anzahl der verschiedenen Datensätze zu bestimmen und sie mithilfe der Laplace-Verteilung in Verbindung mit dem Parameter "1/?" zu verschieben. Aufgrund der Eigenschaften der Laplace-Verteilung sind dann auch die Eigenschaften von Differential Privacy mit "?"-Privatsphäre gewährleistet. Ein Algorithmus der die statistischen Auswertungen durchführt, müsste schließlich noch an das jeweilige Problem angepasst werden. Durch das konsequenten Einhalten der Voraussetzungen lässt sich somit die Privatsphäre von Nutzerdaten bewahren.

Andererseits sollte aber auch beachten werden, dass der Aufwand zur Implementierung eines solchen Verfahrens groß ist. Das Verfahren liefert zwar gute Ergebnisse und bewahrt zudem noch die Privatsphäre, im Allgemeinen sollte die Anzahl der Datensätze aber so umfangreich sein, dass auch eine statistische Aussagekraft gewährleistet werden kann. Des Weiteren werden eine Menge Ressourcen benötigt, um das Verfahren zu implementieren. Deshalb sollte der zu erwartende Nutzen stets größer sein als die Kosten für die Entwicklung - oder einen Dienstleister.

Fazit: Differential Privacy - Ja oder Nein?

Es lässt sich also festhalten, dass es durchaus einige Ansätze gibt, um persönliche Nutzerdaten geheim zu halten. Mit dem Differential-Privacy-Prinzip kann genau berechnet werden, wie sicher ein Algorithmus ist. Das ist momentan der große Vorteil gegenüber anderen Ansätzen, bei denen sich beispielsweise anonymisierte Daten auf die Ursprungsdaten zurückführen lassen und somit keine Sicherheit gewährleistet ist. Ein Algorithmus, der das Differential-Privacy-Prinzip umsetzt, ist die bessere Wahl. Dennoch sollte zunächst abgewogen werden, ob sich der Aufwand zur Umsetzung eines solchen Verfahrens lohnt.

Was Apple hier abzieht, ist gutes Marketing. Andere Unternehmen sollten dem Beispiel folgen und nicht nur auf Algorithmen setzen, sondern auch auf Definitionen. Ein grundsätzlich gut geordneter moralischer Kompass kann auch nicht schaden. (fm)