Mark Zuckerberg gab dem Llama-Team von Meta die Erlaubnis, an urheberrechtlich geschützten Werken zu trainieren und Ansprüche einzureichen

Der Anwalt der Kläger in einer gegen Meta eingereichten Urheberrechtsklage behauptet, Meta-CEO Mark Zuckerberg habe dem Team hinter den Llama-KI-Modellen des Unternehmens grünes Licht gegeben, einen Datensatz mit raubkopierten E-Books und Artikeln für Schulungen zu verwenden.

Der Fall Kadrey v. Meta ist einer von vielen gegen Technologiegiganten, die KI entwickeln und den Unternehmen vorwerfen, ohne Erlaubnis Modelle an urheberrechtlich geschützten Werken zu trainieren. Beklagte wie Meta haben größtenteils behauptet, dass sie durch „Fair Use“ geschützt seien, die US-Rechtsdoktrin, die die Nutzung urheberrechtlich geschützter Werke zur Schaffung von etwas Neuem zulässt, solange diese ausreichend transformativ sind. Viele YouTuber weisen dieses Argument zurück.

In neu nicht redigierte Dokumente Die Kläger im Fall Kadrey gegen Meta, zu denen auch die Bestsellerautoren Sarah Silverman und Ta-Nehisi Coates gehören, wurden am späten Mittwoch beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien eingereicht und berichten über Metas Aussage von Ende letzten Jahres, bei der bekannt wurde, dass Zuckerberg zustimmte Metas Verwendung eines Datensatzes namens LibGen für Lama-bezogenes Training.

LibGen, das sich selbst als „Link-Aggregator“ bezeichnet, bietet Zugriff auf urheberrechtlich geschützte Werke von Verlagen wie Cengage Learning, Macmillan Learning, McGraw Hill und Pearson Education. LibGen wurde mehrfach verklagt, zur Schließung verurteilt und mit einer Geldstrafe in zweistelliger Millionenhöhe wegen Urheberrechtsverletzung belegt.

Laut der Aussage von Meta, wie sie vom Anwalt der Kläger weitergegeben wurde, hat Zuckerberg die Verwendung von LibGen zum Trainieren von mindestens einem von Metas Lama-Modellen genehmigt, trotz Bedenken innerhalb des KI-Führungsteams von Meta und anderer im Unternehmen. In der Akte werden Meta-Mitarbeiter zitiert, die sich auf LibGen als einen „Datensatz, von dem wir wissen, dass er raubkopiert ist“ beziehen und darauf hinweisen, dass seine Verwendung „die Datenlage gefährden könnte [Meta’s] Verhandlungsposition gegenüber den Regulierungsbehörden.“

In der Akte wird auch ein Memo an Meta-KI-Entscheidungsträger zitiert, in dem darauf hingewiesen wird, dass das KI-Team von Meta nach der „Eskalation an MZ“ „[was] genehmigt, LibGen zu verwenden.“ (MZ ist hier eine ziemlich offensichtliche Abkürzung für „Mark Zuckerberg“.)

Die Details stimmen offenbar mit der Berichterstattung der New York Times vom letzten April überein. was darauf hindeutet, dass Meta Abstriche macht, um Daten für seine KI zu sammeln. Der Times zufolge beauftragte Meta einst Auftragnehmer in Afrika mit der Zusammenstellung von Buchzusammenfassungen und erwog den Kauf des Verlags Simon & Schuster. Die Führungskräfte des Unternehmens kamen jedoch zu dem Schluss, dass es zu lange dauern würde, über Lizenzen zu verhandeln, und argumentierten, dass eine faire Nutzung eine solide Verteidigung sei.

Die Einreichung am Mittwoch enthält neue Anschuldigungen, etwa dass Meta versucht haben könnte, seinen mutmaßlichen Verstoß zu verbergen, indem die LibGen-Daten der Zuschreibung entzogen wurden.

Nach Angaben des Anwalts der Kläger hat der Meta-Ingenieur Nikolay Bashlykov, der im Llama-Forschungsteam arbeitet, ein Skript geschrieben, um Urheberrechtsinformationen, einschließlich der Wörter „Copyright“ und „Danksagungen“, aus E-Books in LibGen zu entfernen. Unabhängig davon hat Meta angeblich Urheberrechtsmarkierungen aus Artikeln in Wissenschaftszeitschriften und „Quellmetadaten“ in den Trainingsdaten entfernt, die es für Llama verwendet hat.

„Diese Entdeckung legt nahe, dass Meta ausstreift [copyright information] Nicht nur zu Schulungszwecken“, heißt es in der Akte, „sondern auch, um seine Urheberrechtsverletzung zu verschleiern, denn das Entfernen urheberrechtlich geschützter Werke … hindert Llama daran, Urheberrechtsinformationen auszugeben, die Llama-Benutzer und die Öffentlichkeit auf die Verletzung von Meta aufmerksam machen könnten.“

Laut der neuesten Akte gab Meta während der Aussagen auch bekannt, dass es LibGen per Torrent heruntergeladen hat, ein Schritt, der einige Meta-Forschungsingenieure zum Nachdenken brachte. Torrenting, eine Möglichkeit, Dateien im Internet zu verteilen, erfordert, dass Torrenter gleichzeitig die Dateien, die sie abrufen möchten, „säen“ oder hochladen.

Der Anwalt der Kläger behauptet, dass Meta tatsächlich eine andere Form der Urheberrechtsverletzung begangen hat, indem es LibGen per Torrent heruntergeladen und so zur Verbreitung seiner Inhalte beigetragen hat. Meta habe auch versucht, seine Aktivitäten zu verschleiern, indem es die Anzahl der hochgeladenen Dateien minimiert habe, behauptet der Anwalt.

Der Akte zufolge hat Metas Leiter für generative KI, Ahmad Ah-Dahle, „den Weg frei gemacht“ für das Torrenting von LibGen – und damit Bashlykovs Vorbehalte beiseite geschoben, dass dies „rechtlich nicht in Ordnung sein könnte“.

„Hätte Meta die Werke der Kläger in einer Buchhandlung gekauft oder sie aus einer Bibliothek ausgeliehen und ohne Lizenz seine Lama-Modelle darauf trainiert, hätte es eine Urheberrechtsverletzung begangen“, schrieb der Anwalt der Kläger in der Klageschrift. „Metas Entscheidung, rechtmäßige Methoden zum Erwerb von Büchern zu umgehen und ein wissender Teilnehmer eines illegalen Torrenting-Netzwerks zu werden … dient als Beweis für eine Urheberrechtsverletzung.“

Der Fall gegen Meta ist noch lange nicht entschieden. Derzeit betrifft es nur die frühesten Llama-Modelle von Meta – nicht die jüngsten Veröffentlichungen. Und das Gericht könnte durchaus zu Gunsten von Meta entscheiden, wenn es vom Fair-Use-Argument des Unternehmens überzeugt wird.

Aber die Anschuldigungen werfen kein gutes Licht auf Meta, wie der Richter, der den Fall leitet, Richter Thomas Hixson, am Mittwoch in einem Beschluss feststellte, mit dem er Metas Antrag auf Schwärzung großer Teile der Akte ablehnte.

„Es ist klar, dass Metas Versiegelungsantrag nicht dazu gedacht ist, vor der Offenlegung sensibler Geschäftsinformationen zu schützen, die Wettbewerber zu ihrem Vorteil nutzen könnten“, schrieb Hixson. „Es geht vielmehr darum, negative Publicity zu vermeiden.“

Wir haben Meta um einen Kommentar gebeten und werden diesen Artikel aktualisieren, wenn wir etwas hören.

tch-1-tech