Social-Media-Giganten werden aufgefordert, die Datenschutzrisiken durch Data-Scraping anzugehen

A Gemeinsame Verlautbarung Die von Aufsichtsbehörden eines Dutzend internationaler Datenschutzbehörden, darunter dem britischen ICO, dem kanadischen OPC und dem Hongkonger OPCPD, unterzeichnete Initiative fordert die Mainstream-Social-Media-Plattformen auf, die öffentlichen Beiträge der Nutzer vor Scraping zu schützen – und warnt davor, dass ihnen in den meisten Märkten eine rechtliche Verpflichtung droht, dies zu tun.

„In den meisten Gerichtsbarkeiten unterliegen personenbezogene Daten, die im Internet ‚öffentlich verfügbar‘, ‚öffentlich zugänglich‘ oder ‚öffentlicher Natur‘ sind, den Gesetzen zum Datenschutz und zur Privatsphäre“, schreiben sie. „Einzelpersonen und Unternehmen, die solche personenbezogenen Daten sammeln, sind daher dafür verantwortlich, sicherzustellen, dass sie diese und andere geltende Gesetze einhalten. Allerdings haben auch Social-Media-Unternehmen und Betreiber anderer Websites, die öffentlich zugängliche personenbezogene Daten hosten (SMCs und andere Websites), Datenschutzverpflichtungen im Hinblick auf das Scraping durch Dritte von ihren Websites. Diese Verpflichtungen gelten im Allgemeinen für personenbezogene Daten, unabhängig davon, ob diese Informationen öffentlich zugänglich sind oder nicht. In vielen Ländern kann das Massen-Scraping personenbezogener Daten eine meldepflichtige Datenschutzverletzung darstellen.“

Der Zeitpunkt der Erklärung, die auch von Datenschutzbehörden in Australien, der Schweiz, Norwegen, Neuseeland, Kolumbien, Jersey, Marokko, Argentinien und Mexiko unterzeichnet wurde – die alle Mitglieder der Arbeitsgruppe für internationale Durchsetzungskooperation der Global Privacy Assembly sind – fällt mit zusammen Der anhaltende Hype um generative KI-Modelle, die typischerweise große Datenmengen für das Training erfordern und mehr Unternehmen dazu ermutigen könnten, das Internet zu durchsuchen, um an Datensätze zu gelangen, springen auf den Zug der generativen KI auf.

Prominente Beispiele für solche Systeme, wie das große Sprachmodell ChatGPT von OpenAI, haben sich (zumindest teilweise) auf online veröffentlichte Daten verlassen, um ihre Systeme zu trainieren – und im Juni wurde eine Sammelklage gegen das US-Unternehmen eingereicht CNN Business berichtete überbehauptet, es habe heimlich „riesige Mengen personenbezogener Daten aus dem Internet“ abgekratzt.

Zu den Datenschutzrisiken, die die Regulierungsbehörden hervorheben, gehört der Einsatz von Data Scraping für gezielte Cyberangriffe wie Social Engineering und Phishing; Identitätsbetrug; und für die Überwachung, Profilerstellung und Überwachung von Einzelpersonen, wie etwa die Verwendung von Daten zur Befüllung von Gesichtserkennungsdatenbanken und zur Bereitstellung unbefugten Zugriffs auf Behörden – ein klarer Seitenhieb auf Clearview AI, das einer Reihe von Durchsetzungsmaßnahmen durch internationale Regulierungsbehörden (darunter mehrere in der gesamten EU) ausgesetzt war ) wegen der Nutzung der gesammelten Daten für ein Gesichtserkennungs-ID-Tool, das es an Strafverfolgungsbehörden und andere Benutzer verkauft hat.

Sie warnen außerdem davor, dass die gesammelten Daten für unbefugte politische oder nachrichtendienstliche Zwecke verwendet werden könnten – auch von ausländischen Regierungen oder Geheimdiensten. Und dazu verwendet werden, unerwünschtes Direktmarketing oder Spam zu verbreiten.

Sie nennen das Training von KI-Modellen nicht direkt als eines dieser „wichtigsten“ Datenschutzrisiken, aber generative KI-Tools, die ohne deren Wissen oder Zustimmung auf die Daten von Menschen trainiert wurden, könnten für eine Reihe der von ihnen genannten böswilligen Anwendungsfälle umfunktioniert werden. einschließlich der Nachahmung von Personen für gezielte Cyberangriffe, Identitätsbetrug oder zur Überwachung/Überwachung von Personen.

Neben der Veröffentlichung der Erklärung stellen die Aufsichtsbehörden fest, dass eine Kopie direkt an die Muttergesellschaft von YouTube, Alphabet, gesendet wurde; TikToks Muttergesellschaft ByteDance; Meta (Inhaber von Instagram, Facebook und Threads); Microsoft (LinkedIn); Sina Corp (Weibo); und

Auf einigen Plattformen kam es natürlich bereits zu großen Datenskandalen im Zusammenhang mit Daten-Scraping – wie beispielsweise dem Datenmissbrauchsskandal von Cambridge Analytica im Jahr 2018, der Facebook erschütterte, nachdem ein Entwickler auf seiner Plattform dadurch in der Lage war, Daten von Millionen von Nutzern ohne deren Wissen oder Zustimmung zu extrahieren von laxen Genehmigungen, die das Unternehmen beantragt hat; oder die Strafe in Höhe von 275 Millionen US-Dollar gegen die Datenschutz-Grundverordnung (DSGVO), die Facebook letztes Jahr im Zusammenhang mit einem Daten-Scraping-Vorfall verhängt wurde, der 530 Millionen Nutzer aufgrund eines unsicheren Produktdesigns betraf. (Der letztere Vorfall ist auch Gegenstand einer Klage einer irischen Gruppe für digitale Rechte, die die Feststellung der Datenschutzbehörde anfechtet, dass keine Sicherheitsverletzung vorlag.)

Während die gemeinsame Erklärung der Regulierungsbehörden einen klaren Vorstoß gegen die Mainstream-Social-Media-Sites hinsichtlich der Notwendigkeit enthält, proaktiv beim Schutz der Benutzerinformationen vor Scraping vorzugehen, gibt es keine entsprechend klare Warnung, die die Botschaft begleitet, dass es bei Versäumnissen, zu handeln und die Daten der Menschen zu schützen, nicht der Fall sein wird Dies führt zu Durchsetzungsmaßnahmen – wodurch die Wirkung der Erklärung möglicherweise etwas abgeschwächt wird.

Stattdessen fordern die Aufsichtsbehörden die Plattformen auf, „die Rechtmäßigkeit verschiedener Arten des Daten-Scrapings in den für sie geltenden Gerichtsbarkeiten sorgfältig zu prüfen und Maßnahmen zum Schutz vor rechtswidrigem Daten-Scraping zu ergreifen“.

„Techniken zum Scrapen und Extrahieren von Werten aus öffentlich zugänglichen Daten entstehen und entwickeln sich ständig weiter. Datensicherheit ist eine dynamische Verantwortung und Wachsamkeit ist von größter Bedeutung“, schreiben sie außerdem. „Da kein einzelner Schutz ausreichend vor allen potenziellen Datenschutzschäden im Zusammenhang mit Data Scraping schützt, sollten SMCs und andere Websites mehrschichtige technische und verfahrenstechnische Kontrollen implementieren, um die Risiken zu mindern.“

Zu den im Schreiben erwähnten empfohlenen Maßnahmen zur Begrenzung der Risiken des Scrapings von Benutzerdaten gehört die Festlegung interner Teams/Rollen, die sich auf die Risiken des Scrapings von Daten konzentrieren; „Ratenbegrenzung“ der Anzahl der Besuche pro Stunde oder Tag durch ein Konto bei anderen Kontoprofilen und Beschränkung des Zugriffs, wenn ungewöhnliche Aktivitäten festgestellt werden; und Überwachung, wie schnell und aggressiv ein neues Konto beginnt, nach anderen Benutzern zu suchen und Maßnahmen zu ergreifen, um auf ungewöhnliche Aktivitäten zu reagieren.

Sie schlagen außerdem vor, dass Plattformen Maßnahmen ergreifen, um Scraper zu erkennen, indem sie Muster in der Bot-Aktivität identifizieren – beispielsweise über Systeme zur Erkennung verdächtiger IP-Adressaktivitäten.

Eine weitere Empfehlung besteht darin, Maßnahmen zur Erkennung von Bots zu ergreifen, wie etwa die Bereitstellung von CAPTCHAs und das Blockieren von IP-Adressen, bei denen Daten-Scraping-Aktivitäten festgestellt werden Bots können CAPTCHAs lösen daher sieht dieser Ratschlag schon veraltet aus).

Weitere empfohlene Maßnahmen bestehen darin, dass Plattformen geeignete rechtliche Schritte gegen Scraper einleiten, beispielsweise durch das Versenden von Unterlassungserklärungen; die Löschung gelöschter Informationen verlangen; Einholen einer Bestätigung der Löschung; und andere rechtliche Schritte einzuleiten, um die Allgemeinen Geschäftsbedingungen durchzusetzen, die das Scraping von Daten verbieten.

Plattformen könnten auch verpflichtet sein, betroffene Einzelpersonen und Datenschutzbehörden gemäß den geltenden Gesetzen zu Datenschutzverletzungen zu benachrichtigen, warnen die Aufsichtsbehörden.

Die Social-Media-Giganten, denen eine Kopie des Briefes zugesandt wurde, werden aufgefordert, innerhalb eines Monats mit einem Feedback zu antworten und zu zeigen, wie sie die Erwartungen der Regulierungsbehörden erfüllen werden.

Einzelpersonen sagten: „Denken Sie langfristig“

Der Brief enthält auch einige Ratschläge für Einzelpersonen, Maßnahmen zu ergreifen, um sich vor den Risiken des Scrapings zu schützen – einschließlich der Empfehlung, dass Webbenutzer die Datenschutzrichtlinien der Plattformen beachten; Überlegen Sie sorgfältig, was sie online teilen möchten. und nutzen Sie alle Einstellungen, mit denen Sie die Sichtbarkeit Ihrer Beiträge steuern können.

„Letztendlich ermutigen wir den Einzelnen, langfristig zu denken“, fügen sie hinzu. „Wie würde sich eine Person Jahre später über die Informationen fühlen, die sie heute weitergibt? Während SMCs und andere Websites möglicherweise Tools zum Löschen oder Ausblenden von Informationen anbieten, können dieselben Informationen für immer im Web verbleiben, wenn sie indiziert oder gescrapt und weitergegeben werden.“

In dem Schreiben werden Personen, die befürchten, dass ihre Daten möglicherweise „unrechtmäßig oder unrechtmäßig“ gescrapt wurden, dringend aufgefordert, sich an die betreffende Plattform oder Website zu wenden. Sollten sie keine zufriedenstellende Antwort erhalten, empfiehlt es sich, eine Beschwerde bei der zuständigen Datenschutzbehörde einzureichen. Daher ermutigen die Regulierungsbehörden die Benutzer, beim Scraping wachsamer zu sein, was letztendlich zu einer Zunahme der Untersuchungen und Durchsetzungsmaßnahmen in diesem Bereich führen könnte.

Die Dutzend internationalen Regulierungsbehörden, die die gemeinsame Erklärung unterzeichnet haben, stammen alle aus Märkten außerhalb der Europäischen Union. Aber wie oben erwähnt, sind die EU-Datenschutzbehörden bereits aktiv gegen die Risiken des Data Scraping vorgegangen, indem sie im Rahmen der EU-DSGVO Durchsetzungsmaßnahmen ergreifen. Sie beobachten auch die Entwicklungen bei generativen KI-Diensten genau – die in dem Brief geäußerten Bedenken scheinen also weitgehend mit Themen übereinzustimmen, die bereits auf dem Radar der Datenschutzbehörden der Union stehen.

Bemerkenswert ist, dass die italienische Datenschutzbehörde ChatGPT Anfang des Jahres eine lokale Anordnung zur Einstellung der Verarbeitung auferlegte – was zu einer kurzen Unterbrechung des Dienstes führte, während OpenAI mit Offenlegungen und Kontrollen loslegte. Die Einführung des Bard AI-Chatbots von Google dauerte in der EU länger als in einigen anderen Regionen, nachdem die führende EU-Datenschutzbehörde in Irland ähnliche Bedenken geäußert hatte. Aber die EU-Datenschutzbehörden koordinieren gleichzeitig, wie die lokalen Datenschutzvorschriften am besten auf diese neuartigen KI-Chatbots angewendet werden können, auch im Hinblick auf die entscheidende Frage der Rechtmäßigkeit der Datenverarbeitung, die zum Trainieren der Modelle im Lichte des DSGVO-Rahmens verwendet wird. Entscheidungen über die grundsätzliche Rechtmäßigkeit von Tools wie ChatGPT stehen in der EU daher noch aus.

Anfang des Jahres warnte auch die französische Datenschutzbehörde CNIL, dass der Schutz vor Data Scraping ein zentraler Bestandteil eines im Mai angekündigten KI-Aktionsplans sein werde.

tch-1-tech