Mark Zuckerberg, CEO von Meta, scheint YouTube und seinen Kampf gegen Raubkopien genutzt zu haben, um die Verwendung eines Datensatzes mit urheberrechtlich geschützten E-Books durch sein eigenes Unternehmen zum Trainieren von KI-Modellen zu verteidigen, wie aus kürzlich veröffentlichten Ausschnitten seiner Aussage hervorgeht.
Die Aussage, die Teil einer von den Anwälten der Kläger beim Gericht eingereichten Beschwerde war, steht im Zusammenhang mit dem AI-Urheberrechtsfall Kadrey gegen Meta. Es ist einer von vielen solchen Fällen, die sich durch das US-Gerichtssystem ziehen und KI-Unternehmen gegen Autoren und andere Inhaber geistigen Eigentums ausspielen. Die Beklagten in diesen Fällen – KI-Unternehmen – behaupten größtenteils, dass Schulungen zu urheberrechtlich geschützten Inhalten eine „faire Verwendung“ seien. Viele Urheberrechtsinhaber sind anderer Meinung.
„Ich denke zum Beispiel, dass YouTube am Ende einige Dinge hosten wird, die die Leute für eine gewisse Zeit raubkopieren, aber YouTube versucht, diese Dinge zu entfernen“, sagte Zuckerberg laut Aussage während seiner Aussage Teile eines Transkripts Mittwochabend verfügbar gemacht. „Und ich gehe davon aus, dass die überwiegende Mehrheit der Sachen auf YouTube ziemlich gut ist und sie die Lizenz dazu haben.“
Auszüge aus Zuckerbergs Aussage geben einige Hinweise auf Zuckerbergs Gedanken zu urheberrechtlich geschützten Inhalten und fairer Nutzung. Es ist jedoch zu beachten, dass keine vollständige Abschrift der Aussage veröffentlicht wurde. Tech hat Meta um zusätzlichen Kontext gebeten und wird den Artikel aktualisieren, wenn das Unternehmen antwortet.
Basierend auf den Beweisnuggets scheint Zuckerberg Metas Verwendung eines Trainingsdatensatzes aus E-Books namens LibGen zu verteidigen, um seine Familie von KI-Modellen namens Llama zu entwickeln. Metas Llama konkurriert mit Flaggschiffmodellen von KI-Unternehmen wie OpenAI.
LibGen, das sich selbst als „Link-Aggregator“ bezeichnet, bietet Zugriff auf urheberrechtlich geschützte Werke von Verlagen wie Cengage Learning, Macmillan Learning, McGraw Hill und Pearson Education. LibGen wurde mehrfach verklagt, zur Schließung verurteilt und wegen Urheberrechtsverletzung mit einer Geldstrafe in zweistelliger Millionenhöhe belegt.
Laut Gerichtsakten, die diese Woche entsiegelt wurden, hat Zuckerberg angeblich die Verwendung von LibGen zum Trainieren von mindestens einem der Lama-Modelle von Meta genehmigt, obwohl die KI-Führungskräfte und Forschungsteams des Unternehmens Bedenken hinsichtlich der rechtlichen Auswirkungen hatten.
Die Anwälte der Kläger, zu denen auch die Bestsellerautoren Sarah Silverman und Ta-Nehisi Coates gehören, zitierten Meta-Mitarbeiter mit der Aussage, dass es sich bei LibGen um einen „Datensatz handelt, von dem wir wissen, dass er raubkopiert ist“ und dass seine Verwendung „die Datenlage gefährden könnte“. [Meta’s] Verhandlungsposition mit Regulierungsbehörden“, heißt es in einer rechtlichen Akte.
Während seiner Aussage behauptete Zuckerberg, er habe „nicht wirklich von“ LibGen gehört.
„Ich verstehe, dass Sie mich dazu bringen wollen, eine Meinung zu LibGen abzugeben, von der ich noch nie wirklich gehört habe“, sagte Zuckerberg während der Aussage. „Es ist nur so, dass ich von dieser speziellen Sache keine Ahnung habe.“
Auf die Befragung durch einen der Anwälte der Kläger, David Boies, erklärte Zuckerberg, warum es unangemessen wäre, die Verwendung eines Datensatzes wie LibGen zu verbieten.
„Möchte ich also eine Richtlinie gegen Personen haben, die YouTube nutzen, weil einige Inhalte möglicherweise urheberrechtlich geschützt sind? Nein“, sagte er. „[T]Es gibt Fälle, in denen ein solches generelles Verbot möglicherweise nicht das Richtige ist.“
Zuckerberg gab an, dass Meta bei Schulungen zu urheberrechtlich geschütztem Material „ziemlich vorsichtig“ sein sollte.
„Du weisst, [if there’s] „Jemand, der eine Website bereitstellt und absichtlich versucht, die Rechte der Menschen zu verletzen … offensichtlich ist es etwas, bei dem wir vorsichtig sein oder sorgfältig damit umgehen wollen oder vielleicht sogar unsere Teams davon abhalten wollen, sich damit zu beschäftigen“, sagte Zuckerberg während seine Aussage laut Protokoll.
Neue Vorwürfe
Die Anwälte der Kläger im Fall Kadrey v. Meta haben die Klage mehrmals geändert, seit sie im Jahr 2023 beim US-Bezirksgericht für den Northern District of California, San Francisco Division, eingereicht wurde neue Vorwürfe gegen Meta, darunter, dass das Unternehmen bestimmte Raubkopien von Büchern in LibGen mit urheberrechtlich geschützten Büchern verglichen hat, die zur Lizenzierung verfügbar waren. Anwälte behaupten, Meta habe diese Taktik genutzt, um festzustellen, ob es sinnvoll sei, eine Lizenzvereinbarung mit einem Verlag abzuschließen.
Laut der geänderten Einreichung nutzte Meta angeblich LibGen, um seine neueste Familie von Llama-Modellen, Llama 3, zu trainieren. Die Kläger behaupten außerdem, dass Meta den Datensatz zum Trainieren seiner Llama-4-Modelle der nächsten Generation verwendet.
Der geänderten Akte zufolge versuchten Meta-Forscher angeblich, die Tatsache zu verbergen, dass Llama-Modelle auf urheberrechtlich geschützten Materialien trainiert wurden, indem sie „überwachte Proben“ in die Feinabstimmung von Llama einfügten. Und Meta habe erst im April 2024 Raubkopien von E-Books von einer anderen Quelle, der Z-Library, für das Lama-Training heruntergeladen, heißt es in der geänderten Beschwerde.
Die Z-Library bzw. Z-Lib war Gegenstand zahlreicher rechtlicher Schritte von Verlagen, darunter Beschlagnahmungen und Löschungen von Domains. Im Jahr 2022 wurden die russischen Staatsangehörigen, die es angeblich aufrechterhalten hatten, wegen Urheberrechtsverletzung, Überweisungsbetrugs und Geldwäsche angeklagt.