Machine Learning

Datenschutz im Machine Learning

TensorFlow Privacy veröffentlicht: Wie vertragen sich Machine Learning und der Schutz von Daten?
Keine Kommentare

TensorFlow Privacy soll modernes Machine Learning mit dem Schutz sensibler Daten verbinden. Die neue TensorFlow-Library nutzt differentielle Privatsphäre und steht frei zur Nutzung bereit.

Mit TensorFlow Privacy hat Google eine am Datenschutz orientierte Library für TensorFlow veröffentlicht. Mit ihr können Machine-Learning (ML)-Modelle so trainiert werden, dass sie das Prinzip der differentiellen Privatsphäre (engl. Differential Privacy) umsetzen.

Differential Privacy ist ein mathematisch gestütztes Konzept. Wird es korrekt umgesetzt, werden Daten, die sich zur Identifikation realer Personen eignen, aus Datensammlungen entfernt. Außergewöhnliche Einträge in Trainingsdaten für ML-Modelle würden demnach nicht in den akzeptierten Bereich der Trainingseingaben aufgenommen. Von außen soll dann nicht erkenntlich sein, ob Daten zu einer spezifischen Person abgelehnt wurden oder niemals Teil des Datenmaterials waren.

Mit TensorFlow Privacy sollen ML-Projekte das Prinzip der differentiellen Privatsphäre umsetzen können und damit reale Personen, von denen die verarbeiteten häufig Daten stammen, schützen. Das TensorFlow-Team hebt im Blogpost zum Release hervor, dass moderne ML-Projekte oft mit sensiblen Informationen wie Fotos oder Mails arbeiten. Die Gestaltung von ML-Modellen mit der neuen TensorFlow-Library soll auch dann möglich sein, wenn keine Kenntnisse der mathematischen Grundlagen von differentieller Privatsphäre bestehen.

ML Conference 2019

Workshop: Machine Learning 101++ using Python

mit Dr. Pieter Buteneers (Chatlayer.ai)

Honey Bee Conservation using Deep Learning

mit Thiago da Silva Alves, Jean Metz (JArchitects)

Python Summit 2019

Daten analysieren und transformieren mit Python

mit Doniyor Jurabayev (Freelancer)

Advanced Flow Control

mit Oz Tiram (noris network AG)

TensorFlow Privacy in einem Praxisbeispiel

Das Team hinter TensorFlow beschreibt im Blogpost ein Praxisbeispiel. Darin werden ein gewöhnliches TensorFlow-Modell und ein mit TensorFlow Privacy umgesetztes Modell mit den Daten aus dem Penn-Treebank-Training-Dataset trainiert. Die Modelle sollen nach dem Training erkennen können, ob eingegebene Sätze und Wortfolgen in den Bereich englischsprachiger Finanz-News passen. Zu diesem Beispiel beschreiben Carey Radebaugh (Product Manager, Google) und Ulfar Erlingsson (Research Scientist, Google), dass beide Modelle mehr als 98% der angegebenen Sequenzen akzeptieren. Die vom Privacy-Modell abgelehnten aber vom Standard-Modell akzeptierten Wortfolgen liegen in diesem Beispiel außerhalb des üblichen Sprachgebrauchs englischer Finanz-News, sie wurden also richtigerweise abgelehnt. Einige der ausgeschlossenen Sequenzen besitzen einmalige Merkmale, die einen Rückschluss auf den Autor zulassen können. Ob ein solcher Satz jemals im Datenmaterial enthalten war, können Dritte nicht erkennen.

TensorFlow Privacy nutzen

Das TensorFlow-Team gibt an, dass TensorFlow Privacy bereits mit wenigen Änderungen am Code bestehender Modelle genutzt werden kann. Dazu gehört das Setzen von drei neuen Hyperparametern, sowie deren Abstimmung. Aufgabe dieser Hyperparameter ist die Steuerung der Erstellung, des Clippings und des Noisings von Gradienten. Diese Schritte sind notwendig, um die differentielle Privatsphäre während des Trainings aufrechtzuerhalten.

Wenn Entwickler Konzepte wie die differentielle Privatsphäre nutzen, dann sind maschinelles Lernen und Datenschutz miteinander vereinbar. Weitere Informationen zu TensorFlow Privacy können dem entsprechenden Blogpost sowie dem Repository auf GitHub entnommen werden.

Unsere Redaktion empfiehlt:

Relevante Beiträge

Hinterlasse einen Kommentar

Hinterlasse den ersten Kommentar!

avatar
400
  Subscribe  
Benachrichtige mich zu:
X
- Gib Deinen Standort ein -
- or -