Wie föderiertes Lernen Bedenken hinsichtlich der Privatsphäre von KI überwindet

Autor: Peter Berry

Erstelldatum: 18 Juli 2021

Aktualisierungsdatum: 10 Kann 2024

Wie föderiertes Lernen Bedenken hinsichtlich der Privatsphäre von KI überwindet - Misc

Inhalt

Datenschutz ist heute ein wichtiges Thema für AI
Was ist föderiertes Lernen?
Der Lernprozess
Warum dieser Prozess wertvoll ist
Auswirkungen auf das maschinelle Lernen
Mögliche Probleme
Die Zukunft des föderierten Lernens

Ron ist ein pensionierter Ingenieur und Manager für IBM und andere High-Tech-Unternehmen. Er schreibt ausführlich und ausführlich über moderne Technologie.

Der Einsatz von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) zur Wertschöpfung aus Datenbergen nimmt zu. In Bereichen wie Marketing, Gesundheit, autonome Fahrzeuge, Bankwesen und Internet der Dinge (IoT) bietet die Fähigkeit von AI / ML *, subtile Muster und Korrelationen in großen Datenmengen zu erkennen, Erkenntnisse und Fähigkeiten, die zuvor nicht verfügbar waren.

Um seine Magie auszuführen, muss ein Modell oder ein Algorithmus für maschinelles Lernen „trainiert“ werden, um interessierende Muster in den aufgenommenen Daten zu erkennen. Die Genauigkeit des Modells hängt direkt von der Datenmenge ab, die zum Trainieren verwendet wird. Aus diesem Grund erfordert die Erstellung eines effektiven und nützlichen AI / ML-Modells für die meisten realen Anwendungsfälle große Mengen an Trainingsdaten. Und das ist ein Problem in Bezug auf die Privatsphäre.

^{* Für unsere Zwecke in diesem Artikel werden die Begriffe AI, ML und AI / ML synonym verwendet.}

Datenschutz ist heute ein wichtiges Thema für AI

Hier ist ein Beispiel für das Problem.

Die Entwicklung von AI / ML-Algorithmen, die Ärzten bei der Diagnose von Erkrankungen zuverlässig helfen können, erfordert, dass die Modelle unter Verwendung immenser Datenmengen von realen Patienten trainiert werden. Die Menge und Vielfalt der erforderlichen Daten geht weit über das hinaus, was ein einzelnes Krankenhaus bieten könnte. Traditionell bedeutete dies, dass die Daten vieler Institutionen in einem zentralen Repository zusammengefasst werden mussten, um die enorme Menge zu aggregieren, die für das Training des ML-Modells erforderlich ist.

Angesichts der heutigen Betonung der Privatsphäre ist der Austausch persönlicher Daten von Patienten jedoch äußerst problematisch geworden. Die Allgemeine Datenschutzverordnung (DSGVO) der Europäischen Union verbietet beispielsweise strengstens den Austausch personenbezogener Daten einer Person zwischen verschiedenen Organisationen ohne deren ausdrückliche Erlaubnis. Es gibt Einzelpersonen auch die Kontrolle über die Verwendung ihrer Informationen. Die Unpraktikabilität der Einwilligung jeder Person, deren Daten Teil eines Trainingsdatensatzes sind, schränkt die Entwicklung wirksamer AI / ML-Diagnosehilfen erheblich ein.

Mit einem neuen Ansatz, der ursprünglich von Google im Jahr 2017 entwickelt wurde und Federated Learning heißt, können KI-Modelle trainiert werden, ohne dass private Informationen ausgetauscht und konsolidiert werden müssen.

Was ist föderiertes Lernen?

Das föderierte Lernen wurde entwickelt, um die Notwendigkeit eines zentralen Speichers für Rohdaten für das KI-Modelltraining zu beseitigen. Stattdessen wird an jeder Datenquelle ein Modelltraining durchgeführt. (Beispiele für Datenquellen, die häufig als Endgeräte oder Clients bezeichnet werden, sind Smartphones, IoT-Geräte, autonome Fahrzeuge und elektronische Gesundheitsinformationssysteme von Verbrauchern.) Es werden nur Modellaktualisierungen und niemals die auf den Endgeräten befindlichen Rohdaten gesendet zu einem zentralen Ort

So funktioniert das.

Der Lernprozess

Zunächst wird ein generisches Modell für maschinelles Lernen auf einem zentralen Server generiert. Dieses Modell, das nichts anderes als eine Startbasis ist, wird auf alle Endpunkt- oder Clientgeräte verteilt. Bei Smartphones oder IoT-Geräten könnten dies beispielsweise Millionen sein. Bei den Kunden befinden sich die Rohdaten, einschließlich potenziell sensibler oder geschützter persönlicher Informationen.

Jeder Client aktualisiert das vom zentralen Server empfangene ML-Modell unter Verwendung seiner eigenen Daten als Trainingseingaben. Der Client gibt dann sein lokal aktualisiertes Modell an den zentralen Server zurück, der die Aktualisierungen aller Clients zusammenfasst und daraus ein neues Basismodell generiert. Die neue Basislinie wird dann an die Clients verteilt und der Zyklus wird wiederholt, bis die Basislinie optimiert ist.

Warum dieser Prozess wertvoll ist

Mit der Ankündigung dieser neuen Technologie lieferte Google ein konkretes Beispiel für ihren Wert in der Praxis. Obwohl die meisten Benutzer sich dessen nicht bewusst sind, verwenden sie AI, wenn sie Text in ihr Smartphone eingeben. Dies liegt daran, dass Smartphones ein AI-basiertes Vorhersagetextmodell verwenden, um zu versuchen, das nächste Wort vorherzusagen, wenn Sie mit der Eingabe von Text in das Telefon beginnen.

Als Karen Hao, Reporterin für künstliche Intelligenz für die MIT Technology ReviewIn einem kürzlich erschienenen Artikel wurde festgestellt, dass Google sein prädiktives Textmodell auf alle von Android-Nutzern gesendeten und empfangenen Nachrichten trainieren konnte, ohne sie jemals zu lesen oder von ihren Handys zu entfernen.

Auswirkungen auf das maschinelle Lernen

Von Federated Learning wird erwartet, dass es die Entwicklung von KI-Modellen grundlegend verändert. Ein gutes Beispiel für diese Transformation ist die Art und Weise, wie medizinische KI-Modelle trainiert werden. Vor dem Aufkommen des Verbundlernens hat die Notwendigkeit, große Datenmengen an einem zentralen Ort zu sammeln, die Fähigkeit der Forscher, effektive KI-Diagnosemodelle zu entwickeln, stark eingeschränkt. Wie Karen Hao sagt,

"Sie können ein Brustkrebserkennungsmodell nicht weltweit einsetzen, wenn es nur an einigen tausend Patienten aus demselben Krankenhaus trainiert wurde. All dies könnte sich durch föderiertes Lernen ändern. “

Heutzutage verfügen die meisten Unternehmen nur über ein begrenztes Angebot an intern generierten Daten, die sie zum Trainieren ihrer KI-Modelle verwenden können. und sie stehen aufgrund gesetzlicher, behördlicher oder geschäftlicher Beschränkungen vor großen Hindernissen bei der Erfassung gültiger Schulungsdaten von anderen Organisationen, um die intern verfügbaren Daten zu erweitern. Das föderierte Lernen sollte den Einsatz von KI in Bereichen wie Medizin, Internet der Dinge, autonomen Fahrzeugen usw. enorm fördern, indem es Organisationen ermöglicht, bei der Erstellung genauer KI-Modelle zusammenzuarbeiten und gleichzeitig ihre sensiblen persönlichen oder geschäftlichen Daten sicher im Haus zu halten.

Mögliche Probleme

Das Training von KI-Modellen ist ein rechen- und speicherintensiver Prozess. Da das Verbundlernen erfordert, dass ein solches Training auf Endgeräten wie Smartphones, autonomen Fahrzeugen oder IoT-Geräten stattfindet, kann die Rechenlast auf diesen Geräten ihre normalen Funktionen beeinträchtigen. Ein Ansatz zur Minderung dieser Schwierigkeiten besteht darin, AI-Modell-Trainingsprozesse für Zeiten zu planen, in denen das Gerät normalerweise im Leerlauf wäre.

Darüber hinaus können möglicherweise Millionen von Geräten, die Modellaktualisierungen über ein Netzwerk senden und empfangen, Probleme mit der Bandbreitenbeschränkung verursachen. Google hat dieses Problem mit seinem Federated Averaging-Algorithmus behoben, mit dem tiefe Netzwerke mit 10-100-mal weniger Kommunikation trainiert werden können als mit einer Implementierung ohne diese Funktion.

Ein weiteres, vielleicht schwerwiegenderes Problem ist die Anfälligkeit des Verbundlernens für die sogenannte "Modellvergiftung". Da ein Verbundlern-KI-Modell durch Aufnehmen von Modellaktualisierungsdaten von einer großen Anzahl von Endpunktgeräten entwickelt wird, haben böswillige Akteure möglicherweise die Möglichkeit, das endgültige Modell zu gefährden, indem sie die von einigen Endpunktgeräten gesendeten Modellaktualisierungsinformationen fabrizieren oder „vergiften“. Dies könnte es ihnen ermöglichen, Hintertüren in das Modell zu erstellen.

Da Modellaktualisierungsdaten für Menschen äußerst schwer zu interpretieren sind und die Quelle von Modellinformationen anonym zu halten, ist dies ein Konstruktionsmerkmal vieler föderierter Lernimplementierungen, wobei die Quelle oder sogar das Vorhandensein von fehlerhaften Informationen, die dem Basismodell zur Verfügung gestellt werden, identifiziert werden kann extrem schwierig. Der Schutz vor dieser Möglichkeit wird wahrscheinlich die Entwicklung einer Strategie zur Festlegung eines guten KI-Modells zur Erfassung eines schlechten KI-Modells beinhalten.

Die Zukunft des föderierten Lernens

Die Fähigkeit, AI / ML-Modelle zu trainieren, ohne den Datenschutz zu verletzen, ist ein enormer technologischer Fortschritt. Aus diesem Grund kann das föderierte Lernen in vielen KI-Anwendungsbereichen, einschließlich Computer Vision, Verarbeitung natürlicher Sprache, Gesundheitswesen, autonomen Fahrzeugen, IoT und den in E-Commerce-Systemen verwendeten umfangreichen Vorhersage- und Empfehlungsanwendungen, eine entscheidende Rolle spielen . Es wäre keine Übertreibung zu sagen, dass föderiertes Lernen die Zukunft der KI in erheblichem Maße verändert.