Synthetische Daten

Datenschutz und Datennutzung in Zeiten von DSGVO

17.07.2019
Von 
Sebastian Weyer ist CEO und Co-Founder von Statice. Das Berliner Start-up hat eine Software entwickelt, die Daten anonymisiert und DSGVO-konform macht.
Erfahren Sie, welche Chancen und Risiken Anonymisierung und Pseudonymisierung von Daten im Kontext des Datenschutzes mit sich bringen. Zudem erklärt der Beitrag, was unter synthetische Daten zu verstehen ist.

Die DSGVO trat im Mai 2018 in Kraft und wurde mit dem Hauptziel umgesetzt, Verbrauchern die Kontrolle über ihre Daten zurückzugeben. Dies war längst überfällig, da in Fällen wie Facebook eine von Unternehmen ausgehende Gefahr aufgezeigt wurde, die den Datenschutz ihrer Nutzer nicht ernst genug nehmen.

Damit personenbezogene Daten anonymisiert weiterverwendet werden können, gilt es, die Informationen so zu verändern, dass unter keinen Umständen ein Rückschluss auf die Person mehr möglich ist.
Damit personenbezogene Daten anonymisiert weiterverwendet werden können, gilt es, die Informationen so zu verändern, dass unter keinen Umständen ein Rückschluss auf die Person mehr möglich ist.
Foto: FuzzBones - shutterstock.com

Auf der anderen Seite erschwert die DSGVO es Unternehmen, personenbezogene Kundendaten für sekundäre Anwendungsfälle zu nutzen. Darunter fallen alle Situationen, in denen Daten außerhalb des ursprünglichen Zwecks, für den sie ursprünglich erhoben wurden, genutzt werden. Dazu gehört auch, neue datenbasierte Produkte, wie KI- und ML-Anwendungen, zu entwickeln und zu testen.

Häufig sammeln Unternehmen auch Daten, um sie in zukünftigen Projekten oder Entwicklungen zu nutzen, ohne eine klare Vorstellung darüber, wie diese aussehen werden. Somit erzeugt die DSGVO viel Unsicherheit in Bezug auf die Erhebung der dafür notwendigen Informationen.

Anonyme Daten als Ausweg?

Dieses Problem kann umgangen werden, indem anonyme Daten anstelle von realen Daten verwendet werden. Darunter sind Daten zu verstehen, die so verändert werden, dass die Privatsphäre von Einzelpersonen gewahrt bleibt.

Im Erwägungsgrund 26 der DSGVO werden anonymisierte Daten als solche definiert, "die so anonymisiert sind, dass die betroffene Person nicht oder nicht mehr identifizierbar ist". Anonymisierte Daten müssen also von allen identifizierbaren Informationen befreit werden, so dass es unmöglich ist, Erkenntnisse über eine Person zu gewinnen - direkt oder indirekt.

Ihr Weg zum modernen Data Center

Weiterhin sieht die DSGVO im Erwägungsgrund 26 explizit vor, dass die Verwendung wirklich anonymer Daten von der Verordnung ausgenommen ist: "Diese Verordnung betrifft somit nicht die Verarbeitung solcher anonymer Daten, auch für statistische oder für Forschungszwecke." Das ermöglicht es Unternehmen, anonymisierte Daten frei zwischen und über einander hinweg auszutauschen Dabei wird der Schutz ihrer Kunden gewahrt, weil aus den Daten nicht auf die Person rückgeschlossen werden kann.

Herausforderungen der Anonymisierung

Darin liegt das tatsächliche Problem. Eine echte Anonymisierung von Daten gestaltet sich schwierig. Dies unter Wahrung der Privatsphäre zu tun erfordert Zeit, Ressourcen und umfangreiche Fachkenntnisse.

Die ersten Versuche, Daten zu anonymisieren, sind auf die Pseudonymisierung zurückzuführen. Darunter ist die Entfernung von personenbezogenen Daten wie Namen und Telefonnummern zu verstehen. Die Freigabe von pseudonymisierten Datensätzen birgt jedoch ein hohes Risiko der Re-Identifikation, da sie sehr einfach mit zusätzlichen Datenquellen verknüpft werden können. Das ist ein sogenannter Linking-Angriff. Ein Beispiel für eine solche massive Verletzung ist die Gesundheitsakte des Gouverneurs von Massachusetts, die mit dem öffentlichen Wahlregister verbunden war.

Weitere Methoden

Eine weitere Methode, um dieser Art der Re-Identifikation entgegenzuwirken, ist die K-Anonymisierung. Dies geschieht durch Verallgemeinerung oder Löschung von Attributen in Datensätzen, die einzigartig genug sind, um eine Person zu identifizieren. Mit dieser Technik ist es möglich, Verknüpfungen zu externen Datensätzen, die auf indirekten Identifikatoren basieren, für Zwecke der Re-Identifikation zu verhindern. Aus Sicht des Benutzers beeinträchtigt diese Technik jedoch die Granularität der Originaldaten, da die Werte stark aggregiert oder vollständig entfernt werden.

Darüber hinaus besteht weiterhin die Gefahr, dass der Datenschutz verletzt wird, wenn die sensiblen Attribute homogen sind oder schiefe Verteilungen aufweisen. Mit externem Wissen ist ein Angreifer in der Lage, sensible und private Informationen zu entdecken. Andere Methoden in diesem Bereich sind die L-Diversität oder T-Nähe, die ähnliche Mängel aufweisen.

Synthetische Daten als Mittelweg

Hier versprechen synthetische Daten einen Ausweg. Durch Fortschritte im Bereich des maschinellen Lernens ist es möglich, dass Unternehmen hochgranulare Datensätze freigeben können, ohne das Risiko einzugehen, eine einzelne Person zu identifizieren. Solche Anwendungsfälle sind unter anderem für den Gesundheitssektor sehr wertvoll, wo Daten für Forschungszwecke, die beispielsweise neue Medikamente identifizieren sollen, zwischen Organisationen ausgetauscht werden können.

Im Wesentlichen werden synthetische Daten durch ein sogenanntes "Deep Generative Model", also eine KI, erzeugt. Dies sind maschinelle Lernalgorithmen, die auf einen Datensatz trainiert werden und durch dieses Training die statistischen Informationen und statistischen Strukturen der Originaldaten erlernen.

Mit diesem Wissen wird anschließend ein völlig neuer "synthetischer Datensatz" erzeugt. Darin sind keine Originaleingaben mehr enthalten, sondern er besteht komplett aus neuen künstlichen Datenpunkten. Diese künstlichen Datenpunkte spiegeln jedoch in ihrer Gesamtheit den realen Datensatz mit seinen statistischen Informationen und statistischen Strukturen wieder.

Wie funktioniert das aber genau? Im ersten Schritt lernt das generative Model die statistischen Distributionen eines gegebenen Datensatzes. Es versteht also, wie Informationen innerhalb der Daten verteilt sind und auch miteinander korrelieren und zusammenhängen. Dabei kann der Algorithmus auch versteckte und bisher unbekannte Zusammenhänge erkennen. Aus diesem Wissen kann das Model dann im nächsten Schritt neue Datenpunkte "sampeln". Das heißt, das Model erzeugt neue Datenpunkte, die aus einem ähnlichen statistischen Raum wie die Echtdaten ausgewählt werden, und so ähnliche statistische Zusammenhänge wie die echten Daten aufweisen. Die synthetischen Datensatz besitzen aber keine Eins-zu-Eins-Korrespondenz mit den Personen im ursprünglichen Datensatz, so dass sichergestellt ist, dass die erzeugten Daten nicht wieder auf ihre ursprünglichen Werte zurückgeführt werden können.

Dieser Ansatz ist erst seit etwa zwei Jahren realisierbar, da KI-Werkzeuge wie TensorFlow nun weiter verbreitet sind. Nur mit diesen Methoden können Datensätze mit Hilfe von maschinellen Lernmodellen sehr detailliert verstanden und neue, strukturell äquivalente Datensätze generiert werden.

Fazit

Die Verwendung synthetischer Daten ermöglicht es Unternehmen, diese in Datenschutz-konformer Art und Weise für die Produktentwicklung zu nutzen, neue maschinelle Lernalgorithmen zu trainieren und branchenweite Erkenntnisse zu gewinnen - intern oder in Zusammenarbeit mit Partnern. Grundsätzlich ermöglicht es die allgemeine offene Nutzung relevanter statistischer Informationen unter konstanter Wahrung der Privatsphäre. (jd)