Datenschutz in Big-Data-Projekten

Tools zur Anonymisierung von Daten

10.04.2014
Von 
Der Diplom-Physiker Oliver Schonschek ist freier IT-Fachjournalist und IT-Analyst in Bad Ems.
Werden personenbezogene Daten wo immer möglich anonymisiert, erleichtert das den Datenschutz. Spezielle Tools helfen.

Die größte Hürde bei der praktischen Umsetzung von Big-Data-Projekten ist die Sicherheit der Daten, so das Ergebnis einer Umfrage von PwC unter Entscheidern aus Industrieunternehmen. So sehen die Befragten die Datensicherheit (50 Prozent der Teilnehmer), die Datenqualität (44 Prozent) und den Datenschutz (42 Prozent) als größte Schwierigkeiten. Auch den Verbrauchern ist der Schutz der Daten in Big-Data-Projekten wichtig, wie die Studie "Big Data und Datenschutz" des Handelsblatt Research Institute im Auftrag der Deutschen Telekom gezeigt hat: 62 Prozent der Befragten wünschen sich mehr Datenschutz.

Als Hindernisse für die Nutzung von Big Data sehen viele Unternehmen die Anforderungen an die technische Sicherheit (61 Prozent) und an den Datenschutz (48 Prozent), so eine BITKOM-Umfrage. Um den Datenschutz in Big-Data-Projekten zu vereinfachen, empfiehlt sich die Anonymisierung personenbezogener Daten oder bereits eine Datensparsamkeit bei der Erhebung.
Als Hindernisse für die Nutzung von Big Data sehen viele Unternehmen die Anforderungen an die technische Sicherheit (61 Prozent) und an den Datenschutz (48 Prozent), so eine BITKOM-Umfrage. Um den Datenschutz in Big-Data-Projekten zu vereinfachen, empfiehlt sich die Anonymisierung personenbezogener Daten oder bereits eine Datensparsamkeit bei der Erhebung.
Foto: Bitkom

Datensicherheit und Datenschutz geraten allerdings durch die große Menge und Vielfalt der schützenden Daten zu einer anspruchsvollen Aufgabe. Will man die Absicherung der Daten vereinfachen, empfiehlt sich eine Verringerung des Schutzbedarfs. Praktisch bedeutet das bei personenbezogenen Daten, die Zuordnung zu einer natürlichen Person zu erschweren, die Daten also zu anonymisieren. Ohne Personenbezug entfallen die strengen Vorgaben aus dem Datenschutz.

Anonymisierung erleichtert Datensicherheit

Nicht ohne Grund werden Datensparsamkeit und Datenvermeidung und damit die Reduzierung personenbezogener Daten auf ein notwendiges Minimum als Königsweg im Datenschutz bezeichnet ("Datenvermeidung"). Das Bundesdatenschutzgesetz sagt aus, dass personenbezogene Daten zu anonymisieren oder zu pseudonymisieren sind, soweit dies nach dem Verwendungszweck möglich ist und keinen im Verhältnis zu dem angestrebten Schutzzweck unverhältnismäßigen Aufwand erfordert.

Der beste Weg zu anonymen oder pseudonymen Daten ist, überhaupt keine Daten mit konkretem Personenbezug zu erheben (Datenvermeidung). Der Dienst WeWant verspricht unter anderem die anonyme Teilnahmemöglichkeit an Umfragen via Smartphone-App.
Der beste Weg zu anonymen oder pseudonymen Daten ist, überhaupt keine Daten mit konkretem Personenbezug zu erheben (Datenvermeidung). Der Dienst WeWant verspricht unter anderem die anonyme Teilnahmemöglichkeit an Umfragen via Smartphone-App.
Foto: WeWant GmbH

Unter Anonymisierung versteht das Gesetz dabei "das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können."

Pseudonymisierung hingegen ist "das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren."

Nicht immer, aber öfter anonymisieren

Datenschützer ermuntern grundsätzlich zu Anonymisierung, Datenvermeidung und Datensparsamkeit, um die Verarbeitung personenbezogener Daten auf ein Mindestmaß zu reduzieren. Trotzdem wird von keinem Unternehmen verlangt, jeden Personenbezug aus den Datenbeständen zu tilgen.

Ein weiteres Beispiel der Datenvermeidung: Das elektronische Fahrtenbuch von Carpanion nutzt die AMV-Technologie, bei der die Datenübermittlung anonym über verschlüsselte Datenverbindungen erfolgen soll.
Ein weiteres Beispiel der Datenvermeidung: Das elektronische Fahrtenbuch von Carpanion nutzt die AMV-Technologie, bei der die Datenübermittlung anonym über verschlüsselte Datenverbindungen erfolgen soll.
Foto: Carpanion

Vielmehr entfällt die Notwendigkeit zur Anonymisierung oder Pseudonymisierung immer dann, wenn der Erhebungs- und Verwendungszweck einen eindeutigen Personenbezug notwendig macht oder der Aufwand für Anonymisierung/Pseudonymisierung im Vergleich zum Schutzzweck viel zu hoch wäre.

Zwei Beispiele: Bei Systemprotokollen darf aus Compliance-Gründen nicht einfach jeder Personenbezug entfernt werden - sonst kann im konkreten Verdachtsfall der schuldige Nutzer nicht ausgemacht werden. Kundendaten müssen ebenfalls nicht anonymisiert werden, wenn sie für die Vertragsabwicklung benötigt werden oder einer gesetzlichen Aufbewahrungspflicht unterliegen.

Entscheidend ist die sogenannte Zweckbindung für die personenbezogenen Daten oder bei Systemprotokollen die sogenannte besondere Zweckbindung: Personenbezogene Daten, die für die Datenschutzkontrolle, die Datensicherung oder zur Sicherstellung eines ordnungsgemäßen Betriebes einer Datenverarbeitungsanlage gespeichert werden, dürfen nur für diese Zwecke verwendet werden. Werden personenbezogene Daten nur für ihren Erhebungszweck verarbeitet, müssen sie nicht anonymisiert werden.

Anonymes Big Data ist möglich

Wenn Unternehmen den gesetzlichen Vorgaben und den Verbraucherwünsche nachkommen und in ihren umfangreichen Datenbeständen eine gezielte Anonymisierung/Pseudonymisierung vornehmen wollen, scheint die nächste Herausforderung im Raum zu stehen: Man braucht man ein leistungsfähiges, zuverlässiges Verfahren.

Anonymität sollte Nutzern wo immer möglich angeboten werden: Die Lancom Hotspot-Lösung für Hotels unterstützt verschiedene Anmeldemöglichkeiten, neben Benutzernamen und Passwort, Zugangs-Voucher oder zusätzlichen Passwörter per SMS auch die anonyme WLAN-Nutzung nach Bestätigung der AGBs.
Anonymität sollte Nutzern wo immer möglich angeboten werden: Die Lancom Hotspot-Lösung für Hotels unterstützt verschiedene Anmeldemöglichkeiten, neben Benutzernamen und Passwort, Zugangs-Voucher oder zusätzlichen Passwörter per SMS auch die anonyme WLAN-Nutzung nach Bestätigung der AGBs.
Foto: Lancom Systems

Die personenbezogenen Daten müssen in den "Datenbergen" aufgespürt, klassifiziert und nach bestimmten Kriterien anonymisiert werden, ohne dabei Daten zu übersehen oder fälschlicherweise den erforderlichen Personenbezug zu entfernen. Dafür gibt es je nach Aufgabenstellung spezielle Werkzeuge, die nun beispielhaft betrachtet werden sollen.

Datenmaskierung

Die IRI FieldShield Software oder die Informatica Data Masking-Produkte können dazu genutzt werden, um Datenbank-Inhalte oder unstrukturierte Daten nach personenbezogenen Daten zu durchsuchen. Fundstellen lassen sich nach definierten Regeln maskieren.

Das bedeutet, dass die personenbezogenen Daten durch Daten ersetzt werden, die keinen echten Personenbezug mehr aufweisen. Das können frei definierbare Zeichenketten oder bestimmte Ersetzungswörter sein. Alternativ können Daten so verkürzt werden, dass sie ihre Aussagekraft über bestimmte Personen verlieren.

Daten unerkannt zu belassen, aber trotzdem auswerten zu können, ist die hohe Kunst.
Daten unerkannt zu belassen, aber trotzdem auswerten zu können, ist die hohe Kunst.
Foto: kamphi, Fotolia.com

Neben der statischen Datenmaskierung (Static Data Masking, SDM), die den Personenbezug von gespeicherten Daten entfernen kann, gibt es die dynamische Datenmaskierung (Dynamic Data Masking, DDM), die Daten in nahezu Echtzeit so abwandelt, dass erst gar keine personenbezogenen Daten gespeichert werden. Dabei machen leistungsfähige Lösungen zur Datenmaskierung vor großen Datenmengen nicht halt: Innovative Routines International (IRI) verspricht den Anwendern "Big Data Protection", wozu eine Maskierung von personenbezogenen Daten innerhalb großer Datenmengen gehört.

Webanalysen: Verkürzung der IP-Adresse

Wie die Verkürzung personenbezogener Daten bei der Anonymisierung hilft, zeigt das Beispiel der Webanalyse mit Google Analytics: Nach Bestimmungen des Telemediengesetzes (TMG) dürfen Nutzungsprofile nur bei Verwendung von Pseudonymen erstellt werden. Die IP-Adresse ist nach Ansicht der Datenschützer kein Pseudonym im Sinne des Telemediengesetzes.

Nachdem die Aufsichtsbehörden für den Datenschutz in Deutschland mit Google längere Zeit über die Datenschutzanforderungen an eine Webanalyse diskutiert hatten, stellte Google eine Lösung vor, mit der auch die Datenschützer einverstanden waren.

Die Lösung besteht unter anderem darin, Google mit der Kürzung der IP-Adressen zu beauftragen - durch entsprechende Einstellungen im Programmcode von Google Analytics. Dazu ist auf jeder Internetseite mit Google-Analytics-Einbindung der Trackingcode um die Funktion "_anonymizeIp()" zu ergänzen. Die Kürzung der IP-Adressen dient der Anonymisierung der Nutzungsdaten.

Datenbanken: Anonyme Datenfelder

Speziell zur Anonymisierung von Datenbanken gibt es Werkzeuge wie Anonimatron, eine Open-Source-Lösung auf Java-Basis, die unter anderem echte E-Mail-Adressen in zu anonymisierenden Datenbankbeständen durch erfundene Mail-Adressen ersetzt. Ein anderes Werkzeug ist DICOM Anonymizer&Masker, das die Anonymisierung von Dateinamen, Verzeichnisnamen und Datenelementen aus Datenbanken anbietet.

Es sollte also kein Problem darstellen, Lösungen zur nachträglichen Anonymisierung oder Peudonymisierung von Datenbanken aufzutreiben. Noch besserer ist es allerdings, personenbezogene Daten wenn möglich gleich ganz zu vermeiden. Im Bereich der Marktforschung ist das beispielsweise zumeist möglich, weil nicht der einzelne Nutzer, sondern Nutzergruppen zu untersuchen sind.

Marktforschung: Anonyme Umfragen

Die Marktforschungslösung von Qualtrics enthält eine Option, mit der sich personenbezogene Daten bei Umfragen vermeiden lassen. Unter den Umfrage-Optionen gibt es die Auswahl "Do not record any personal information and remove panel association".

Bei dieser Auswahl werden personenbezogene Daten wie die IP-Adresse des Umfrageteilnehmers entfernt, bevor die Antworten gespeichert werden. Personenbezogene Angaben, die der Teilnehmer innerhalb seiner Antworten selbst gibt, bleiben indes bestehen.

Auf Wunsch lassen sich die Antworten der Teilnehmer ebenfalls so überarbeiten, dass personenbezogene Daten vor einer Speicherung entfernt werden. Diese Überarbeitung ist nicht rückgängig zu machen. Unternehmen, die eine Umfrage mit dem Werkzeug starten wollen, sollten sich also überlegen, welche personenbezogenen Angaben wirklich benötigt werden und welche nicht. Die Optionen von Qualtrics lassen sich entsprechend anpassen.

Business Analytics: Der anonyme Kunde

Abschließend stellt sich die Frage, ob denn Big-Data-Projekte für die Marktforschung und andere Datenerhebungen nicht ihre Aussagekraft verlieren, wenn man den Vorgaben der Datenschützer nachkommt. Diese Sorge dürfte bei vielen Unternehmen vorherrschen, die die Möglichkeiten zur Anonymisierung und die Vorgaben dazu kennen, aber nicht umsetzen.

Eine Lösung wie Aircloak zeigt aber, dass sich Nutzerdaten anonymisieren lassen, ohne auf eine hilfreiche Business-Analyse verzichten zu müssen. Kunden können anonym bleiben und trotzdem hinsichtlich ihrer Wünsche und Vorlieben untersucht werden. Zu diesem Zweck nutzt Aircloak Sandboxing für die Nutzerdaten, ein gehärtetes Betriebssystem sowie Verschlüsselung und die Anonymisierung der Nutzerdaten, um die Identifizierung von Einzelnutzern zu verhindern.

Innovative Werkzeuge und Lösungen sind also verfügbar, um selbst große Datenmengen datenschutzgerecht zu verarbeiten. Big Data, Datenschutz und Business Intelligence sind kein Widerspruch, sondern gehören eng zusammen. Anonymisierung und Pseudonymisierung bauen die Brücke dorthin. (sh)