The New Age of Data – GDPR Compliance und Data Analytics – Teil 2

Die jüngsten Fortschritte im Bereich des maschinellen Lernens haben ein wirtschaftliches Interesse erzeugt, die neuen Technologien in Geschäftsprozessen zu integrieren. Das belegen die ansteigenden Investitionen in ML-Tools und der rapide Aufbau von Analytics-Abteilungen. Gleichzeitig wurden Fragen nach Datenschutz und einer digitalen Ethik laut. Als rechtliche Antwort auf diese Entwicklungen hat die Europäische Union im Mai 2018 ihr bislang umfangreichstes Datenschutzgesetz, die General Data Protection (GDPR), erlassen. Und stellt damit die noch jungen Analytics-Abteilungen vor neue Herausforderungen. Welche Auswirkungen werden die zahlreichen Compliance-Anforderungen auf die praktische Arbeit von Data Analytics und Business Intelligence entfalten? Eine endgültige Antwort kann erst die Arbeit und Kontrolle der Regulierungsbehörden geben. Dennoch sind schon zum jetzigen Zeitpunkt relevante Aspekte für Data Analytics identifizierbar, auf die der regulatorische Rahmen einen Einfluss ausüben wird.

Dieser Blogeintrag ist Teil zwei unserer Blogserie zur GDPR. Im ersten Teil diskutieren wir den Zusammenhang zwischen der neuen Regulierung und dem unternehmensinternen Datenmanagement. Dieser Blogbeitrag ist keine rechtliche Beratung und erhebt nicht den Anspruch auf Vollständigkeit.

Die Einwilligungserklärung als Schlüssel für Analytics

Im Zentrum des neuen Datenschutzes stehen sensible Daten, die eine Person direkt identifizieren oder zur Identifikation beitragen, beispielsweise Wohnort, IP-Adresse oder Konfessionszugehörigkeit. Während anonyme Daten weiterhin bedenkenlos analysiert werden können, setzt die Verarbeitung und Speicherung sensibler Daten ab sofort eine Rechtsgrundlage voraus, z. B. eine Einwilligungserklärung, ein berechtigtes Interesse oder ein Gesetz.

Das Prinzip des berechtigten Interesses erlaubt es Unternehmen, die Wichtigkeit und Notwendigkeit einer Datenverarbeitung für das operative Geschäft geltend zu machen. Als Beispiel: ein Online-Händler benötigt für die Warenauslieferung Kontaktdaten des Empfängers. Ohne Adresse, kein Leistungsaustausch und kein Geschäft. Andere Unternehmen sind wiederum auf persönliche Daten angewiesen, um Betrugsfälle aufzuklären. In beiden Fällen ist die analytische Verarbeitung der Daten geschäftsrelevant und stellt somit keine Verletzung des Datenschutzes dar. Sollte ein berechtigtes Interesse vorliegen, muss keine zusätzliche Einwilligung eingeholt werden. Deshalb sollten Unternehmen sehr genau prüfen, für welche Datenverarbeitungszwecke ein besonderes Interesse vorliegt und davon Gebrauch machen.

Wichtiger, da der Regelfall, ist jedoch die Einwilligungserklärung. Für Analytics-Abteilungen ist die Einwilligung des Betroffenen (in GDPR-Sprache „Datensubjekt“) gleich in zweifacher Hinsicht von Bedeutung. Zum einen müssen sie in der vorangehenden Erklärung den Betroffenen in einer verständlichen und eindeutigen Sprache über den Verarbeitungszweck seiner Daten aufklären. Das bedeutet ein gutes Verständnis von den analytischen Zielen und dem analytischen Umfang und eine engere Zusammenarbeit mit Legal, damit die Ziele der analytischen Datenauswertung rechtmäßig kommuniziert werden. Ebenso empfiehlt es sich vor neuen Projekten, die Fachmeinung des zuständigen Datenschutzbeauftragten zu konsultieren, um die Rechtmäßigkeit der Datenverarbeitung sicherzustellen.

Zum anderen muss sichergestellt werden, dass der Analyseumfang nur sensible Daten mit einer vorliegenden Erklärung einschließt. Dies ist angesichts der neuen Betroffenenrechte keine leichte Aufgabe, denn Einwilligungen können abgelehnt, vergeben und widerrufen werden. Eine Verarbeitung ohne Einwilligung stellt einen Datenschutzverstoß dar. Damit ist klar: die Arbeit von Analytics setzt ein aktives Einwilligungsmanagement und ein sicheres Wissen über den Datenursprung voraus. Für beides kann ein Data Catalog helfen, der sowohl eine Übersicht über den Datenbestand als auch Beschreibungen, Kommentare und Informationen über den Datenursprung ermöglicht. Ein angemessenes Dokumentationswesen sollte zusätzlich hinreichend Aufschluss über die Datenverarbeitung liefern, so dass zu jedem Zeitpunkt die Rechtmäßigkeit überprüft und bewiesen werden kann.

Weniger ist mehr – Speichern und der Geschäftszweck

Die Rechtmäßigkeit der Datenverarbeitung hat Auswirkungen auf die Menge an verfügbaren Daten. Bislang war es gängige Praxis, große Datenmengen für potentielle Analysezwecke zu speichern. Oftmals lagen diese Daten unbenutzt im Datenbestand, konnten aber später in einem neuen Modell ihren besonderen Mehrwert entfalten. Was wird die GDPR an dieser Praxis ändern? Sofern es sich um personenbezogene Daten handelt, soll das vorsorgliche Speichern eingeschränkt werden. Das Prinzip der Datenminimierung fordert von Unternehmen, sich beim Speichern auf den Zweck der Verarbeitung zu beschränken. Heißt, nur so viele personenbezogene Daten wie nötig, um den Geschäftszweck auszuführen. Dies soll ein exzessives Datensammeln verhindern, kann aber auch mit dem explorativen Arbeitsansatz der Data Analytics in Konflikt geraten. Denn oftmals führt das ungeplante kreative Zusammenführen von Datenquellen zu neuen Erkenntnissen. Und mehr Daten bedeutet ein präziseres Modell und eine exaktere Bestimmung von Regelmäßigkeiten. Die Quintessenz von Big Data.

Natürlich ist eine neue Vorschrift keine Einbahnstraße. Und so sind auch insbesondere zwei Vorteile der Datenminimierung denkbar: Ein effizientes Datenmanagement von sensiblen Daten spart Zeit. Denn die Arbeit von Data Analytics erschöpft sich allzu oft in der Frage, welche Daten in das Modell fließen dürfen. Zudem schaffen es nur wenige Modelle in die Produktion. Fußt die Speicherung auf den Geschäftszweck, schärft sich der Fokus auf Daten, um eine wertschöpfende Analyse durchzuführen und hindert Analysten, sich in vielen Ideen ohne messbaren Mehrwert zu verlieren. Gleichzeitig minimiert sich das Risiko einer Datenpanne. Je weniger sensible Daten sich im eigenen Bestand befinden, desto mehr Überblick und Kontrolle gewinnt ein Unternehmen. Das senkt die Wahrscheinlichkeit eines Datenverlusts an unbefugte Eindringlinge. Ebenso wird die Weitergabe personenbezogener Daten an Dritte strenger bewertet. Auch das trägt zu einem professionellen Risikomanagement bei. In Zeiten ansteigender Hackerangriffe gewinnt das Thema Informationssicherheit spürbar an Bedeutung.

Mensch oder Maschine? Der Fall der automatisierten Entscheidung

Maschinelles Lernen ist für Data Analytics zum Mittel der Wahl geworden. Daher stellt sich unmittelbar die Frage, ob die GDPR daran etwas ändern wird.

Die GDPR unterscheidet zwischen einer teilweise automatisierten und einer ausschließlich automatisierten Verarbeitung. Eine ausschließlich automatisierte Verarbeitung kommt ohne menschliches Eingreifen aus. Trotzdem kann sie durch eine Entscheidung rechtliche Wirkung entfalten, z.B. ob für die Gruppe schwacher Kreditnehmer ein Kreditantrag bewilligt wird oder für die Gruppe profitabler Kunden ein Produktpreis höher oder niedriger ausfällt. Die Entscheidungsfindung ohne menschliches Zutun ist für die GDPR besonders sensibel. Daher gewährt sie Datensubjekten das Recht, nicht alleinig einer voll automatisierten Entscheidung unterworfen zu sein. Die Leitlinien des Expertengremiums European Data Protection Board sprechen sogar von einem Verbot rein automatisierter Entscheidungen. Gleichzeitig formuliert die GDPR Ausnahmen, die eine ausschließlich auf einer automatisierten Verarbeitung beruhenden Entscheidung ermöglichen, so z.B. eine Einwilligungserklärung, Erfüllung vertraglicher oder rechtlicher Verpflichtungen oder Erlaubnis durch ein anderes Recht. An dieser Stelle wird wieder einmal die herausragende Rolle der Einwilligungserklärung deutlich. Das populäre Profiling, wie im oberen Beispiel der Gruppierung, fällt nicht per se in die Kategorie voll automatisierter Entscheidungen, da Profiling erst einmal nur eine Bewertungsgrundlage schafft. Ausschlaggebend ist, ob die anschließende Entscheidung entweder von einem Menschen oder von der Maschine getroffen wird, wobei die GDPR ein rein symbolisches menschliches Eingreifen ausschließt. Insgesamt wird sich ein neues Zusammenspiel zwischen Algorithmen und sensiblen Daten einstellen.

Abbildung 1: Automatisierte Entscheidung

Neben dieser Kategorisierung fordert die GDPR mehr Transparenz. In ihrem Gesetzestext gibt sie Betroffenen das Recht auf aussagekräftige Informationen über die automatisierte Entscheidungsfindung. Nicht das Wie (technische Details), sondern das Warum (die Logik) soll der Betroffene verstehen. Rechtsexperten diskutieren derzeit, welchen Umfang dieses Warum hat und ob es ein Recht auf Erklärung impliziert. Eine verbindliche Erklärungspflicht würde sich in jedem Fall auf die Arbeit von Data Analytics auswirken, denn analytische  Modelle dürften nicht mehr als Black-Box-Funktionen betrachtet werden. Und das kann für komplexe Modelle schwierig werden. So sind Entscheidungsbäume leicht zu erklären, da sie Regeln abbilden. Die Entscheidungsfindung eines Neuronalen Netzwerks mit zahlreichen Ebenen ist jedoch immer noch ein aktives Forschungsthema (siehe z.B. das Forschungsprojekt “XAI” der US-amerikanischen Forschungsbehörde DARPA). Die Diskussion der Interpretierbarkeit wird auch durch jüngste Publikationen zu fehlerhaftem Klassifizieren angetrieben. In einem Experiment konnte ein Neurales Netzwerk mit einer hohen Genauigkeit zwischen Huskies und Wölfen unterscheiden, jedoch war das ausschlaggebende Unterscheidungskriterium der Schnee im Hintergrund von Huskies (siehe den Fachartikel zur LIME-Methode). Analog kann dieser Fall von Scheinkorrelation im Geschäftskontext zu Diskriminierungseffekten führen und erheblichen Schaden anrichten. Sollte ein Analytics-Mitarbeiter die Determinanten seines komplexen Modells nicht ausreichend verstehen, könnte ein einfacherer Modelrahmen zu mehr Sicherheit beitragen. Die neue Anforderung nach Erklärbarkeit, abhängig vom Umfang, könnte dazu führen, dass das Verhältnis zwischen Interpretierbarkeit und Modellgüte neu verhandelt wird und Analytics-Mitarbeiter in Zukunft etwas Modellgenauigkeit für Erklärbarkeit eintauschen.

Fazit

Die GDPR hat konkrete Auswirkungen auf die Arbeit von Data Analytics. Insgesamt sind Analytics-Mitarbeiter in ihrer Kommunikation stärker gefordert. Voraussetzung dafür ist ein neues Verständnis für den Umgang mit sensiblen Daten. Speichern und verarbeiten erfordert eine Einwilligung oder ein berechtigtes Interesse. Daher müssen Analyseziele klar kommuniziert und das Innenleben von Modellen zu einem gewissen Grad erklärt werden. Eine engere Zusammenarbeit mit dem Datenschutzbeauftragten sorgt für eine rechtmäßige Verarbeitung. Vorteile der neuen Anforderungen können eine zielgerichtete Modellierung und mehr Modelle in Produktion sein. Eine erklärbare Datenauswertung beugt zudem potentiellen Diskriminierungseffekten vor, während die Datensparksamkeit Risiken minimiert und damit das Risikomanagement vereinfacht. Insgesamt wird die GDPR mehr Vertrauen zwischen Unternehmen und ihren Kunden schaffen. Unternehmen mit einer nachvollziehbaren Datenauswertung verdienen sich die Akzeptanz und werden von langfristigen Kundenbindungen profitieren. Daher sollten Unternehmen die GDPR Compliance als Hebel für eine neue Vertrauensbasis verstehen.