Frankreichs Datenschutzbeauftragter achtet im KI-Aktionsplan auf den Schutz vor Data-Scraping

Frankreichs Datenschutzbehörde CNIL hat eine veröffentlicht Aktionsplan für künstliche Intelligenz, die einen Überblick darüber gibt, worauf sie in den kommenden Monaten und darüber hinaus ihre Aufmerksamkeit richten wird, einschließlich generativer KI-Technologien wie ChatGPT von OpenAI.

Innerhalb der CNIL wurde ein spezieller Dienst für künstliche Intelligenz eingerichtet, der an der Untersuchung des Umfangs der Technologie und der Erstellung von Empfehlungen für „datenschutzfreundliche KI-Systeme“ arbeitet.

Ein zentrales erklärtes Ziel der Regulierungsbehörde besteht darin, die Entwicklung von KI zu steuern, „die personenbezogene Daten respektiert“, beispielsweise durch die Entwicklung der Mittel dazu KI-Systeme prüfen und steuern, um „Menschen zu schützen“.

Ein weiterer Schwerpunkt liegt auf dem Verständnis der Auswirkungen von KI-Systemen auf Menschen sowie der Unterstützung innovativer Akteure im lokalen KI-Ökosystem, die die Best Practices der CNIL anwenden.

„Die CNIL möchte klare Regeln zum Schutz der personenbezogenen Daten europäischer Bürger festlegen, um zur Entwicklung datenschutzfreundlicher KI-Systeme beizutragen“, heißt es darin.

Es vergeht kaum eine Woche ohne weitere hochkarätige Anrufe von Technologen, die die Regulierungsbehörden auffordern, sich mit der KI auseinanderzusetzen. Und erst gestern, während der Aussage vor dem US-Senat, sagte der CEO von OpenAI Sam Altman forderte den Gesetzgeber auf, die Technologie zu regulierenund schlägt ein Lizenzierungs- und Testsystem vor.

Allerdings sind die Datenschutzbehörden in Europa bereits weit fortgeschritten – Unternehmen wie Clearview AI wurden beispielsweise bereits landesweit wegen des Missbrauchs personenbezogener Daten weitgehend mit Sanktionen belegt. Während der KI-Chatbot Replika kürzlich in Italien einer Durchsetzung ausgesetzt war.

ChatGPT von OpenAI zog Ende März auch eine sehr öffentliche Intervention der italienischen Datenschutzbehörde nach sich, die dazu führte, dass das Unternehmen neue Offenlegungen und Kontrollen für Benutzer einführte und ihnen bestimmte Beschränkungen bei der Nutzung ihrer Informationen auferlegte.

Gleichzeitig sind die EU-Gesetzgeber dabei, eine Einigung über einen risikobasierten Rahmen zur Regulierung von KI-Anwendungen zu erzielen, den die Union bereits im April 2021 vorgeschlagen hatte.

Dieser Rahmen, das EU-KI-Gesetz, könnte bis Ende des Jahres verabschiedet werden, und die geplante Verordnung ist ein weiterer Grund, den die CNIL bei der Ausarbeitung ihres KI-Aktionsplans hervorhebt. Die Arbeit werde „auch die Vorbereitung auf den Inkrafttreten ermöglichen“. des derzeit diskutierten Entwurfs einer europäischen KI-Verordnung“.

Bestehende Datenschutzbehörden (DPAs) werden wahrscheinlich eine Rolle bei der Durchsetzung des KI-Gesetzes spielen, daher wird der Aufbau von KI-Verständnissen und -Fachwissen durch die Regulierungsbehörden für ein effektives Funktionieren des Systems von entscheidender Bedeutung sein. Während die Themen und Details, auf die die EU-Datenschutzbehörden ihre Aufmerksamkeit richten, die operativen Parameter der KI in der Zukunft gewichten werden – sicherlich in Europa und möglicherweise auch darüber hinaus, wenn man bedenkt, wie weit die EU bei der Festlegung digitaler Regeln voraus ist.

Daten-Scraping im Frame

Im Bereich der generativen KI achtet die französische Datenschutzbehörde besonders auf die Praxis bestimmter KI-Modellhersteller, Daten aus dem Internet zu extrahieren, um Datensätze für das Training von KI-Systemen wie großen Sprachmodellen (LLMs) zu erstellen, die beispielsweise natürliche Parsen durchführen können Sprache beherrschen und auf Kommunikation menschenähnlich reagieren.

Es heißt, ein vorrangiger Bereich für seinen KI-Dienst werde „der Schutz öffentlich verfügbarer Daten im Internet vor der Verwendung von Scraping“ sein kratzen, von Daten für die Konstruktion von Werkzeugen“.

Dies ist ein unbequemer Bereich für Hersteller von LLMs wie ChatGPT, die sich darauf verlassen haben, still und leise große Mengen an Webdaten zu sammeln, um sie als Trainingsmaterial weiterzuverwenden. Diejenigen, die Webinformationen aufgesaugt haben, die personenbezogene Daten enthalten, stehen in Europa vor einer besonderen rechtlichen Herausforderung – wo die seit Mai 2018 geltende Datenschutz-Grundverordnung (DSGVO) verlangt, dass sie über eine Rechtsgrundlage für eine solche Verarbeitung verfügen.

In der DSGVO sind zwar eine Reihe von Rechtsgrundlagen festgelegt, die Möglichkeiten für eine Technologie wie ChatGPT sind jedoch begrenzt.

Nach Ansicht der italienischen Datenschutzbehörde gibt es nur zwei Möglichkeiten: Einwilligung oder berechtigte Interessen. Und da OpenAI einzelne Webnutzer vor der Aufnahme ihrer Daten nicht um ihre Erlaubnis gebeten hat, beruft sich das Unternehmen nun auf die Geltendmachung berechtigter Interessen in Italien für die Verarbeitung; eine Behauptung, die noch von der örtlichen Regulierungsbehörde untersucht wird, Garantie. (Zur Erinnerung: Die DSGVO-Strafen können zusätzlich zu etwaigen Korrekturanordnungen bis zu 4 % des weltweiten Jahresumsatzes ausmachen.)

Die EU-weite Verordnung enthält weitere Anforderungen an Unternehmen, die personenbezogene Daten verarbeiten – etwa, dass die Verarbeitung fair und transparent sein muss. Es gibt also zusätzliche rechtliche Herausforderungen für Tools wie ChatGPT, um nicht mit dem Gesetz in Konflikt zu geraten.

Und – insbesondere – betont die französische CNIL in ihrem Aktionsplan die „Fairness und Transparenz der Datenverarbeitung, die dem Betrieb von zugrunde liegt [AI tools]Als besondere Frage von Interesse werden der Dienst für künstliche Intelligenz und eine weitere interne Einheit, das CNIL Digital Innovation Laboratory, in den kommenden Monaten vorrangig untersucht.

Weitere erklärte Prioritätsbereiche, die die CNIL für ihren KI-Scoping angibt, sind:

  • der Schutz der von den Nutzern bei der Nutzung dieser Tools übermittelten Daten, angefangen bei der Erhebung (über eine Schnittstelle) bis hin zu ihrer möglichen Wiederverwendung und Verarbeitung durch maschinelle Lernalgorithmen;
  • die Folgen für die Rechte des Einzelnen an seinen Daten, sowohl in Bezug auf diejenigen, die zum Lernen von Modellen gesammelt werden, als auch in Bezug auf diejenigen, die von diesen Systemen bereitgestellt werden können, wie z. B. Inhalte, die im Fall generativer KI erstellt werden;
  • der Schutz vor Voreingenommenheit und Diskriminierung, die auftreten können;
  • die beispiellosen Sicherheitsherausforderungen dieser Tools.

Als Altman gestern vor einem Ausschuss des US-Senats aussagte, wurde er von US-Gesetzgebern zum Ansatz des Unternehmens zum Schutz der Privatsphäre befragt, und der CEO von OpenAI versuchte, das Thema eng zu formulieren und sich nur auf Informationen zu beziehen, die aktiv von Benutzern des KI-Chatbots bereitgestellt wurden – wie er beispielsweise feststellte , dass ChatGPT Benutzern die Möglichkeit gibt, anzugeben, dass ihr Gesprächsverlauf nicht als Trainingsdaten verwendet werden soll. (Eine Funktion, die es jedoch zunächst nicht bot.)

Auf die Frage, welche konkreten Maßnahmen zum Schutz der Privatsphäre ergriffen wurden, sagte Altman vor dem Senatsausschuss: „Wir trainieren nicht anhand der an unsere API übermittelten Daten. Wenn Sie also ein Geschäftskunde von uns sind und Daten übermitteln, schulen wir das überhaupt nicht… Wenn Sie ChatGPT verwenden, können Sie sich von unserer Schulung zu Ihren Daten abmelden. Sie können auch Ihren Gesprächsverlauf oder Ihr gesamtes Konto löschen.“

Zu den Daten, die überhaupt zum Trainieren des Modells verwendet wurden, hatte er jedoch nichts zu sagen.

Altmans enge Formulierung dessen, was Privatsphäre bedeutet, ging an der grundlegenden Frage der Rechtmäßigkeit von Trainingsdaten vorbei. Wenn Sie so wollen, kann man es die „Ursünde der Privatsphäre“ der generativen KI nennen. Aber es ist klar, dass es für OpenAI und seine Datenschmuggler immer schwieriger wird, dieses Thema zu ignorieren, da die Regulierungsbehörden in Europa damit fortfahren, die bestehenden Datenschutzgesetze der Region auf leistungsstarken KI-Systemen durchzusetzen.

Im Fall von OpenAI wird es weiterhin einem Flickenteppich von Durchsetzungsansätzen in ganz Europa unterliegen, da es in der Region keine etablierte Basis hat – was der One-Stop-Shop-Mechanismus der DSGVO nicht anwendet (wie es normalerweise bei Big Tech der Fall ist). ), sodass jede Datenschutzbehörde befugt ist, Regulierungen vorzunehmen, wenn sie der Ansicht ist, dass die Daten lokaler Benutzer verarbeitet werden und ihre Rechte gefährdet sind. Während also Italien zu Beginn des Jahres mit einer Intervention bei ChatGPT hart durchgegriffen hat und eine Anordnung zur Einstellung der Verarbeitung verhängt hat, während gleichzeitig eine Untersuchung des Tools eingeleitet wurde, kündigte die französische Aufsichtsbehörde erst im April als Reaktion auf Beschwerden eine Untersuchung an. (Spanien hat ebenfalls angekündigt, die Technologie zu prüfen, allerdings ohne bisher weitere Maßnahmen zu ergreifen.)

Ein weiterer Unterschied zwischen EU-Datenschutzbehörden besteht darin, dass CNIL scheint besorgt darüber zu sein, ein breiteres Themenspektrum als die vorläufige Liste Italiens zu untersuchen – einschließlich der Frage, wie das Prinzip der Zweckbindung der DSGVO auf große Sprachmodelle wie ChatGPT angewendet werden sollte. Das deutet darauf hin, dass das Unternehmen am Ende noch umfangreichere betriebliche Änderungen anordnen könnte, wenn es zu dem Schluss kommt, dass gegen die DSGVO verstoßen wird.

„Die CNIL wird in Kürze einen Leitfaden zu den Regeln für die gemeinsame Nutzung und Wiederverwendung von Daten im Rahmen einer Konsultation vorlegen“, heißt es darin. „Diese Arbeit wird die Frage der Wiederverwendung frei zugänglicher Daten im Internet umfassen, die jetzt zum Erlernen vieler KI-Modelle verwendet werden.“ Dieser Leitfaden wird daher für einige der Datenverarbeitungen relevant sein, die für den Entwurf von KI-Systemen, einschließlich generativer KI, erforderlich sind.

„Es wird auch seine Arbeit an der Gestaltung von KI-Systemen und dem Aufbau von Datenbanken für maschinelles Lernen fortsetzen. Daraus werden ab Sommer 2023 im Anschluss an die bereits mit mehreren Akteuren organisierte Konsultation mehrere Veröffentlichungen entstehen, um konkrete Empfehlungen insbesondere für die Gestaltung von KI-Systemen wie ChatGPT zu geben.“

Hier sind die restlichen Themen, die laut CNIL „schrittweise“ in künftigen Veröffentlichungen und den von ihr erstellten KI-Leitlinien behandelt werden:

  • die Nutzung des Systems der wissenschaftlichen Forschung zur Einrichtung und Wiederverwendung von Schulungsdatenbanken;
  • die Anwendung des Zweckprinzips auf Allzweck-KIs und Basismodelle wie große Sprachmodelle;
  • die Erläuterung der Aufteilung der Verantwortlichkeiten zwischen den Stellen, aus denen die Datenbanken bestehen, denen, die Modelle aus diesen Daten erstellen, und denen, die diese Modelle verwenden;
  • die Regeln und bewährten Verfahren für die Auswahl von Daten für die Schulung unter Berücksichtigung der Grundsätze der Datengenauigkeit und -minimierung;
  • die Wahrnehmung der Rechte des Einzelnen, insbesondere des Auskunfts-, Berichtigungs- und Widerspruchsrechts;
  • die geltenden Regeln zur Haltbarkeit, insbesondere für die zu verwendenden Trainingsbasen und die komplexesten Modelle;
  • Schließlich ist sich die CNIL bewusst, dass die Probleme, die künstliche Intelligenzsysteme aufwerfen, nicht bei ihrer Konzeption enden, und verfolgt daher auch ihre Ziele Ethische Überlegungen [following a report it published back in 2017] zum Einsatz und Austausch von Modellen des maschinellen Lernens, zur Vorbeugung und Korrektur von Vorurteilen und Diskriminierung oder zur Zertifizierung von KI-Systemen.

In Bezug auf die Prüfung und Kontrolle von KI-Systemen legt die französische Regulierungsbehörde fest, dass sich ihre Maßnahmen in diesem Jahr auf drei Bereiche konzentrieren werden: Einhaltung eines bestehenden Stellungnahme zum Einsatz „verstärkter“ Videoüberwachung, das es im Jahr 2022 veröffentlichte; der Einsatz von KI zur Betrugsbekämpfung (z. B. Sozialversicherungsbetrug); und bei der Untersuchung von Beschwerden.

Sie bestätigt außerdem, dass bereits Beschwerden über die rechtlichen Rahmenbedingungen für das Training und den Einsatz generativer KI eingegangen sind – und sagt, dass man dort an Klarstellungen arbeitet.

„Die CNIL hat insbesondere mehrere Beschwerden gegen das Unternehmen OpenAI erhalten, das den ChatGPT-Dienst verwaltet, und hat ein Kontrollverfahren eingeleitet“, fügt sie hinzu und weist auf die Existenz eines hin spezielle Arbeitsgruppe, die kürzlich innerhalb des Europäischen Datenschutzausschusses eingerichtet wurde zu versuchen, die Herangehensweise verschiedener europäischer Behörden an die Regulierung des KI-Chatbots zu koordinieren (und eine angeblich „harmonisierte Analyse der durch das OpenAI-Tool implementierten Datenverarbeitung“ zu erstellen).

Als weitere Warnung an die Hersteller von KI-Systemen, die nie die Erlaubnis der Menschen zur Nutzung ihrer Daten eingeholt haben und möglicherweise auf künftige Vergebung hoffen, stellt die CNIL fest, dass sie besonders darauf achten wird, ob Unternehmen personenbezogene Daten für die Entwicklung, Schulung oder Nutzung verarbeiten KI-Systeme verfügen über:

  • eine Datenschutz-Folgenabschätzung durchgeführt, um Risiken zu dokumentieren und Maßnahmen zu deren Reduzierung zu ergreifen;
  • ergriffene Maßnahmen zur Information der Menschen;
  • geplante Maßnahmen zur Ausübung der Rechte von Personen, die an diesen besonderen Kontext angepasst sind.

Also, ähm, sagen Sie nicht, dass Sie nicht gewarnt wurden!

Was die Unterstützung innovativer KI-Akteure betrifft, die die europäischen Regeln (und Werte) einhalten wollen, betreibt die CNIL seit einigen Jahren eine regulatorische Sandbox – und sie ermutigt KI-Unternehmen und Forscher, an der Entwicklung kompatibler KI-Systeme zu arbeiten Ich freue mich über die Datenschutzbestimmungen, um Kontakt aufzunehmen (über [email protected]).

tch-1-tech