Datenschutz in Big-Data-Projekten

Tools zur Anonymisierung von Daten

10.04.2014 von Oliver Schonschek
Werden personenbezogene Daten wo immer möglich anonymisiert, erleichtert das den Datenschutz. Spezielle Tools helfen.

Die größte Hürde bei der praktischen Umsetzung von Big-Data-Projekten ist die Sicherheit der Daten, so das Ergebnis einer Umfrage von PwC unter Entscheidern aus Industrieunternehmen. So sehen die Befragten die Datensicherheit (50 Prozent der Teilnehmer), die Datenqualität (44 Prozent) und den Datenschutz (42 Prozent) als größte Schwierigkeiten. Auch den Verbrauchern ist der Schutz der Daten in Big-Data-Projekten wichtig, wie die Studie "Big Data und Datenschutz" des Handelsblatt Research Institute im Auftrag der Deutschen Telekom gezeigt hat: 62 Prozent der Befragten wünschen sich mehr Datenschutz.

Als Hindernisse für die Nutzung von Big Data sehen viele Unternehmen die Anforderungen an die technische Sicherheit (61 Prozent) und an den Datenschutz (48 Prozent), so eine BITKOM-Umfrage. Um den Datenschutz in Big-Data-Projekten zu vereinfachen, empfiehlt sich die Anonymisierung personenbezogener Daten oder bereits eine Datensparsamkeit bei der Erhebung.
Foto: Bitkom

Datensicherheit und Datenschutz geraten allerdings durch die große Menge und Vielfalt der schützenden Daten zu einer anspruchsvollen Aufgabe. Will man die Absicherung der Daten vereinfachen, empfiehlt sich eine Verringerung des Schutzbedarfs. Praktisch bedeutet das bei personenbezogenen Daten, die Zuordnung zu einer natürlichen Person zu erschweren, die Daten also zu anonymisieren. Ohne Personenbezug entfallen die strengen Vorgaben aus dem Datenschutz.

Anonymisierung erleichtert Datensicherheit

Nicht ohne Grund werden Datensparsamkeit und Datenvermeidung und damit die Reduzierung personenbezogener Daten auf ein notwendiges Minimum als Königsweg im Datenschutz bezeichnet ("Datenvermeidung"). Das Bundesdatenschutzgesetz sagt aus, dass personenbezogene Daten zu anonymisieren oder zu pseudonymisieren sind, soweit dies nach dem Verwendungszweck möglich ist und keinen im Verhältnis zu dem angestrebten Schutzzweck unverhältnismäßigen Aufwand erfordert.

Der beste Weg zu anonymen oder pseudonymen Daten ist, überhaupt keine Daten mit konkretem Personenbezug zu erheben (Datenvermeidung). Der Dienst WeWant verspricht unter anderem die anonyme Teilnahmemöglichkeit an Umfragen via Smartphone-App.
Foto: WeWant GmbH

Unter Anonymisierung versteht das Gesetz dabei "das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können."

Pseudonymisierung hingegen ist "das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren."

Nicht immer, aber öfter anonymisieren

Datenschützer ermuntern grundsätzlich zu Anonymisierung, Datenvermeidung und Datensparsamkeit, um die Verarbeitung personenbezogener Daten auf ein Mindestmaß zu reduzieren. Trotzdem wird von keinem Unternehmen verlangt, jeden Personenbezug aus den Datenbeständen zu tilgen.

Ein weiteres Beispiel der Datenvermeidung: Das elektronische Fahrtenbuch von Carpanion nutzt die AMV-Technologie, bei der die Datenübermittlung anonym über verschlüsselte Datenverbindungen erfolgen soll.
Foto: Carpanion

Vielmehr entfällt die Notwendigkeit zur Anonymisierung oder Pseudonymisierung immer dann, wenn der Erhebungs- und Verwendungszweck einen eindeutigen Personenbezug notwendig macht oder der Aufwand für Anonymisierung/Pseudonymisierung im Vergleich zum Schutzzweck viel zu hoch wäre.

Zwei Beispiele: Bei Systemprotokollen darf aus Compliance-Gründen nicht einfach jeder Personenbezug entfernt werden - sonst kann im konkreten Verdachtsfall der schuldige Nutzer nicht ausgemacht werden. Kundendaten müssen ebenfalls nicht anonymisiert werden, wenn sie für die Vertragsabwicklung benötigt werden oder einer gesetzlichen Aufbewahrungspflicht unterliegen.

Entscheidend ist die sogenannte Zweckbindung für die personenbezogenen Daten oder bei Systemprotokollen die sogenannte besondere Zweckbindung: Personenbezogene Daten, die für die Datenschutzkontrolle, die Datensicherung oder zur Sicherstellung eines ordnungsgemäßen Betriebes einer Datenverarbeitungsanlage gespeichert werden, dürfen nur für diese Zwecke verwendet werden. Werden personenbezogene Daten nur für ihren Erhebungszweck verarbeitet, müssen sie nicht anonymisiert werden.

Anonymes Big Data ist möglich

Wenn Unternehmen den gesetzlichen Vorgaben und den Verbraucherwünsche nachkommen und in ihren umfangreichen Datenbeständen eine gezielte Anonymisierung/Pseudonymisierung vornehmen wollen, scheint die nächste Herausforderung im Raum zu stehen: Man braucht man ein leistungsfähiges, zuverlässiges Verfahren.

Anonymität sollte Nutzern wo immer möglich angeboten werden: Die Lancom Hotspot-Lösung für Hotels unterstützt verschiedene Anmeldemöglichkeiten, neben Benutzernamen und Passwort, Zugangs-Voucher oder zusätzlichen Passwörter per SMS auch die anonyme WLAN-Nutzung nach Bestätigung der AGBs.
Foto: Lancom Systems

Die personenbezogenen Daten müssen in den "Datenbergen" aufgespürt, klassifiziert und nach bestimmten Kriterien anonymisiert werden, ohne dabei Daten zu übersehen oder fälschlicherweise den erforderlichen Personenbezug zu entfernen. Dafür gibt es je nach Aufgabenstellung spezielle Werkzeuge, die nun beispielhaft betrachtet werden sollen.

Datenmaskierung

Die IRI FieldShield Software oder die Informatica Data Masking-Produkte können dazu genutzt werden, um Datenbank-Inhalte oder unstrukturierte Daten nach personenbezogenen Daten zu durchsuchen. Fundstellen lassen sich nach definierten Regeln maskieren.

Das bedeutet, dass die personenbezogenen Daten durch Daten ersetzt werden, die keinen echten Personenbezug mehr aufweisen. Das können frei definierbare Zeichenketten oder bestimmte Ersetzungswörter sein. Alternativ können Daten so verkürzt werden, dass sie ihre Aussagekraft über bestimmte Personen verlieren.

Daten unerkannt zu belassen, aber trotzdem auswerten zu können, ist die hohe Kunst.
Foto: kamphi, Fotolia.com

Neben der statischen Datenmaskierung (Static Data Masking, SDM), die den Personenbezug von gespeicherten Daten entfernen kann, gibt es die dynamische Datenmaskierung (Dynamic Data Masking, DDM), die Daten in nahezu Echtzeit so abwandelt, dass erst gar keine personenbezogenen Daten gespeichert werden. Dabei machen leistungsfähige Lösungen zur Datenmaskierung vor großen Datenmengen nicht halt: Innovative Routines International (IRI) verspricht den Anwendern "Big Data Protection", wozu eine Maskierung von personenbezogenen Daten innerhalb großer Datenmengen gehört.

Webanalysen: Verkürzung der IP-Adresse

Wie die Verkürzung personenbezogener Daten bei der Anonymisierung hilft, zeigt das Beispiel der Webanalyse mit Google Analytics: Nach Bestimmungen des Telemediengesetzes (TMG) dürfen Nutzungsprofile nur bei Verwendung von Pseudonymen erstellt werden. Die IP-Adresse ist nach Ansicht der Datenschützer kein Pseudonym im Sinne des Telemediengesetzes.

Nachdem die Aufsichtsbehörden für den Datenschutz in Deutschland mit Google längere Zeit über die Datenschutzanforderungen an eine Webanalyse diskutiert hatten, stellte Google eine Lösung vor, mit der auch die Datenschützer einverstanden waren.

Die Lösung besteht unter anderem darin, Google mit der Kürzung der IP-Adressen zu beauftragen - durch entsprechende Einstellungen im Programmcode von Google Analytics. Dazu ist auf jeder Internetseite mit Google-Analytics-Einbindung der Trackingcode um die Funktion "_anonymizeIp()" zu ergänzen. Die Kürzung der IP-Adressen dient der Anonymisierung der Nutzungsdaten.

Datenbanken: Anonyme Datenfelder

Speziell zur Anonymisierung von Datenbanken gibt es Werkzeuge wie Anonimatron, eine Open-Source-Lösung auf Java-Basis, die unter anderem echte E-Mail-Adressen in zu anonymisierenden Datenbankbeständen durch erfundene Mail-Adressen ersetzt. Ein anderes Werkzeug ist DICOM Anonymizer&Masker, das die Anonymisierung von Dateinamen, Verzeichnisnamen und Datenelementen aus Datenbanken anbietet.

Profi-Tools für Datenbanken -
MySQL Workbench
Mit der kostenlosen “MySQL Workbench” erhalten Anwender ein Komplettpaket, das die Arbeit mit der beliebten Open Source-Datenbank effizienter macht.
phpMyAdmin
Wer eine Web-basierende, kostenlose und stabile Lösung für die Verwaltung von MySQL-Datenbanken sucht, der wird beim populären “phpMyAdmin” fündig. Das Tool bietet vor allem Anfängern alle nötigen Features in einer bequemen Arbeitsumgebung.
Sequel Pro
Mit "Sequel Pro" stellt sich eine kostenlose und native Anwendung vor, die die Verwaltung von MySQL-Datenbanken auf dem Mac deutlich verbessern kann.
Querious
Mit “Querious” erhalten Mac-User eine weitere professionelle Anwendung, die in Sachen Funktionalität und Design hohe Anforderungen erfüllt. Ob der Lizenzpreis von knapp 30 Dollar im Vergleich zum kostenlosen Sequel Pro gerechtfertigt ist, muss jeder Einzelne für sich entscheiden.
MySQL Editor Pro
MySQL-Datenbanken mobil auf dem iPhone verwalten? Kein Problem mit “MySQL Editor Pro”. Dabei handelt es sich um eine einfache Lösung, die ihre Zwecke vollkommen erfüllt. Mit einem Preis von über 10 Euro ist es aber für eine App nicht gerade günstig.
DataGlass MySQL Mobile Database Client
Gute Performance, eine ansprechende Benutzerschnittstelle und einige nette Funktionen, die nicht unbedingt selbstverständlich sind, machen aus dem “DataGlass MySQL Mobile Database Client” für iPhone und iPad eine gute Option für Fortgeschrittene. Kostenpunkt: Knapp acht Euro.
SQLite Expert
Die Mini-Datenbank SQLite wird dank HTML5 und Smartphones wie Android und iPhone immer beliebter. Mit dem Freeware-Tool für Windows “SQLite Expert” können solche Client-seitige Datenbanken effizient verwaltet werden.
SQLite Manager
Das kostenlose und quelloffene Firefox-Addon “SQLite Manager” wandelt den Browser in einen leistungsfähigen Admin für SQLite-Systeme.

Es sollte also kein Problem darstellen, Lösungen zur nachträglichen Anonymisierung oder Peudonymisierung von Datenbanken aufzutreiben. Noch besserer ist es allerdings, personenbezogene Daten wenn möglich gleich ganz zu vermeiden. Im Bereich der Marktforschung ist das beispielsweise zumeist möglich, weil nicht der einzelne Nutzer, sondern Nutzergruppen zu untersuchen sind.

Marktforschung: Anonyme Umfragen

Die Marktforschungslösung von Qualtrics enthält eine Option, mit der sich personenbezogene Daten bei Umfragen vermeiden lassen. Unter den Umfrage-Optionen gibt es die Auswahl "Do not record any personal information and remove panel association".

Bei dieser Auswahl werden personenbezogene Daten wie die IP-Adresse des Umfrageteilnehmers entfernt, bevor die Antworten gespeichert werden. Personenbezogene Angaben, die der Teilnehmer innerhalb seiner Antworten selbst gibt, bleiben indes bestehen.

Auf Wunsch lassen sich die Antworten der Teilnehmer ebenfalls so überarbeiten, dass personenbezogene Daten vor einer Speicherung entfernt werden. Diese Überarbeitung ist nicht rückgängig zu machen. Unternehmen, die eine Umfrage mit dem Werkzeug starten wollen, sollten sich also überlegen, welche personenbezogenen Angaben wirklich benötigt werden und welche nicht. Die Optionen von Qualtrics lassen sich entsprechend anpassen.

Business Analytics: Der anonyme Kunde

Abschließend stellt sich die Frage, ob denn Big-Data-Projekte für die Marktforschung und andere Datenerhebungen nicht ihre Aussagekraft verlieren, wenn man den Vorgaben der Datenschützer nachkommt. Diese Sorge dürfte bei vielen Unternehmen vorherrschen, die die Möglichkeiten zur Anonymisierung und die Vorgaben dazu kennen, aber nicht umsetzen.

Eine Lösung wie Aircloak zeigt aber, dass sich Nutzerdaten anonymisieren lassen, ohne auf eine hilfreiche Business-Analyse verzichten zu müssen. Kunden können anonym bleiben und trotzdem hinsichtlich ihrer Wünsche und Vorlieben untersucht werden. Zu diesem Zweck nutzt Aircloak Sandboxing für die Nutzerdaten, ein gehärtetes Betriebssystem sowie Verschlüsselung und die Anonymisierung der Nutzerdaten, um die Identifizierung von Einzelnutzern zu verhindern.

Innovative Werkzeuge und Lösungen sind also verfügbar, um selbst große Datenmengen datenschutzgerecht zu verarbeiten. Big Data, Datenschutz und Business Intelligence sind kein Widerspruch, sondern gehören eng zusammen. Anonymisierung und Pseudonymisierung bauen die Brücke dorthin. (sh)

"Datability" in 140 Zeichen -
Alexander Berhard (@AlexVirtually)
DATABILITY ist NICHT die Nadel im Heuhaufen zu finden, sondern die Nadel im Heuhaufen gewinnbringend zu vermarkten.
Erwin Herrmann
Big Data Big Nutzen!
Thomas Keil (@DrKeil)
In einem See von Daten die Fische mit deren Einverständnis zu fischen.
Michael Tsiaousidis
Datability: Die Fähigkeit, große Datenmengen in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen.
El Dze (@El_Dze)
Datability ... der Versuch Hana als Cloudlösung mit flexiebler Abrechnung zu verkaufen?
Christian Zalto
Hast viele Daten? Nicht lange warten!Keine Zeit&Geld verschwenden oder gar vorm Richter enden. Alles klar? Ja sehen Sie,so geht Datability!
Tam (@hey_fisch)
Große Datenmengen, die schnell, transparent und bewußt genutzt werden, dem Kunden aber trotzdem Privatsphäre einräumen
SAS Deutschland (@sas_d)
Datability = analytische Chancen kennen + ethische Grenzen respektieren
Moritz Jaeger
"Verflucht, wir brauchen noch irgendein Wort, das keiner versteht, so dass wir es als neues Konzept der CeBIT vorstellen können um wichtig zu sein!"
Reinhard
Datability ist für mich BigData 2.0. Also BigData 1.0 plus Nachhaltigkeit und verantwortungsvolle Nutzung.
Crisp Research (@crisp_research)
Datability - Ein Trendbegriff "Made in Germany" der weit über die Cebit 2014 hinausreichen wird
WS460
Datability ist die Fähigkeit, riesige Datenmengen in hoher Geschwindigkeit intelligent zu analysieren und seriös zu nutzen.
Daniel Nguyen (@mchcn864)
Die Datability bedeuet die Fähigkeit, große Datenmengen in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen
arstom
Aus Kundendaten Profit generieren.
Thomas Keil (@DrKeil)
Wenn ich die Daten meiner Kunden nur so nutze, wie ich will, dass meine Daten genutzt werden.
Mac2Castle (@mac2castle)
Datability ist, wenn ich dem Mitarbeiter Daten & Workflows mobil "mitgebe", ohne dabei Kompromisse in Sachen Security einzugehen.
Michael Huss
Durch Datability haben IT Abteilungen noch mehr Daten welche Sie ignorieren können um Entscheidungen aufgrund von Firmenpolitik zu treffen ;-)
FuFr
Vernünftige Nutzung von BigData unter Beachtung von Datenschutz und IT-Sicherheit sowohl im stationären und im mobilen Einsatz
Moritz Jaeger (@jagermo)
"Hey, mein Neffe hat eine Folge #HIMYM angesehen und ein neues Wort gedichtet - das können wir umsonst hernehmen"
Carsten Waetke (@CWaetke)
Datability: Die sofortige Vermeidung der Sammlung u. Verarbeitung von massenhaften nutzlosen Informationen
Anke Knicker
Datability ist Datenmacht über Kunden und Wirtschaft. Wir können sie nutzen um bessere und genauere Entscheidungen zu treffen oder viel Schaden anrichten, wenn wir nicht verantwortungsvoll mit Datability umgehen.
Thomas Keil (@DrKeil)
Fähigkeit, technisch wie organisatorisch, Daten umfassend und doch verantwortungsvoll zu nutzen.
Heinz Kemmer
Datability; die Fähigkeit aus der Vernetzung und Analyse großen Datenmengen neues Wissen zu generieren und daraus neuartige Produkte und Dienstleistungen entstehen zu lassen.
Jürgen
Der Umgang mit großen Datenmengen (Big Data). Im heutigen Zeitalter sehr wichtig. Verschlüsselungen werden immer wichtiger u. sollten für den gesamten Internetverkehr eingeführt werden.
Svenja Grebener
Datability bezeichnet das Vermögen, die großen Mengen von Daten, die in unserer Zeit anfallen, in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen
Bjoern M
auf grosse Mengen von Daten jederzeit und weltweit zugreifen zu können und sie verantwortungsvoll zu nutzen.
Mike Backhaus (@MikeBackhaus)
datability ist das was die geheimdienste nicht machen
Christine Paulus (@christinepaulus)
Tante Emma-Mentalität wie Glaubwürdigkeit, Vertrauen oder Respekt vor dem Einzelnen für alle
Vaurien
Datability ist die Möglichkeit Daten überall nutzen zu können.
Michael Greth (@mysharepoint)
frei nach Einstein: Datability- ist Erkenntnis. Alles andere ist einfach nur Information
Thomas Keil (@DrKeil)
Datensparsamkeitsgrundprinzipbeachtungsselbstverpflichtung
David Schubert (@david_schubert)
Datability: Wenn ich weiß, wie viele Pfandflaschen im Müll liegen.
SAS Deutschland (@sas_d)
Datability: mehr Daten + genauere Analysen + verantwortungsvoller Umgang mit Information = bessere Entscheidungen
Christian Pabst
Datability: Die Fähigkeit, große Datenmengen in hoher Geschwindigkeit verantwortungsvoll und nachhaltig zu nutzen.