Laut Gerichtsdokumenten, die am Donnerstag nicht versiegelt wurden, haben sie jahrelang mit den am Donnerstag nicht versiegelten Gerichtsdokumenten intern aussagen, um die KI -Modelle des Unternehmens auszubilden, um die KI -Modelle des Unternehmens zu schulen.
Die Dokumente wurden von den Klägern in dem Fall Kadrey gegen Meta eingereicht, einem von vielen AI -Urheberrechtsstreitigkeiten, die sich langsam durch das US -Gerichtssystem verwandeln. Der Angeklagte Meta behauptet, dass Schulungsmodelle für IP-geschützte Werke, insbesondere Bücher, „faire Verwendung“ sind. Zu den Klägern, zu denen die Autoren Sarah Silverman und Ta-Nehisi Coates gehören.
Frühere Materialien, die in der Klage eingereicht wurden, behauptete, Mark Zuckerberg, CEO von Meta, gab das KI -Team von Meta das OK, um nach urheberrechtlich geschützt zu trainieren Arbeiten Und dass Meta die KI -Schulungsdatenlizenzgespräche mit Buchverlagern gestoppt hat. Die neuen Einreichungen, von denen die meisten Teile der internen Arbeiten zwischen Meta -Mitarbeitern zeigen, malen das bisher klarste Bild, wie Meta möglicherweise urheberrechtlich geschützte Daten verwendet hat, um seine Modelle zu trainieren, einschließlich Modellen in der LLAMA -Familie des Unternehmens.
In einem Chat diskutierten Meta -Mitarbeiter, darunter Melanie Kambadur, ein Senior Manager des LLAMA Model Research Teams von Meta, Trainingsmodelle zu Werken, von denen sie wussten, dass sie legal behoben sind.
“[M]y Meinung wäre (in der Linie von ‚Affing -Vergebung, nicht für die Erlaubnis‘): Wir versuchen, die Bücher zu erwerben und es zu Execs zu eskalieren, damit sie den Anruf tätigen “ Februar 2023, nach den Einreichungen. “[T]Seine ist der Grund, warum sie diese Gen Ai Org aufbauten [sic]: So können wir weniger risikoavers sein. “
Martinet hat die Idee, E-Books zu Einzelhandelspreisen zu kaufen, um ein Schulungssatz zu erstellen, anstatt Lizenzangaben mit einzelnen Buchverlagern zu senken. Nachdem ein anderer Mitarbeiter darauf hingewiesen hatte, dass die Verwendung von nicht autorisierte, urheberrechtlich geschützte Materialien Gründe für eine rechtliche Herausforderung darstellen könnten, verdoppelte sich Martinet und argumentierte, dass „A Gazillion“ -Startups wahrscheinlich bereits Raubkopbücher für das Training verwendeten.
„Ich meine, schlimmster Fall: Wir haben herausgefunden, dass es endlich in Ordnung ist, während ein Start einer Wünsche startet [sic] Nur tonnenweise Bücher über BitTorrent “, schrieb Martinet, nach den Einreichungen. “[M]Y 2 Cent wieder: Versuchen Sie, Geschäfte mit Verlegern direkt zu haben, dauert lange… “
Im selben Chat warnte Kambadur, der meta in Gesprächen mit der Dokumenthosting -Plattform „und anderen“ für Lizenzen stand, davor, dass die Anwälte von Meta, obwohl sie „öffentlich verfügbare Daten“ für Modellschulungen erfordern würden, „weniger konservativ“ als „weniger konservativ“ waren als „weniger konservativ“ als „weniger konservativ“, während sie „weniger konservativ“ waren als „weniger konservativ“, aber die Verwendung von Genehmigungen erforderlich würden, aber „weniger konservativ“ seien, aber „weniger konservativ“ seien. Sie waren in der Vergangenheit mit solchen Genehmigungen gewesen.
„Ja, wir müssen auf jeden Fall noch Lizenzen oder Genehmigungen für öffentlich verfügbare Daten erhalten“, sagte Kambadur. nach den Einreichungen. “[D]Jetzt haben wir mehr Geld, mehr Anwälte, mehr Bizdev -Hilfe, die Fähigkeit, schnell zu verfolgen/zu eskalieren, und Anwälte sind etwas weniger konservativ. “
Gespräche von Libgen
In einer anderen Arbeit, die in den Einreichungen weitergeleitet wurde, diskutiert Kambadur möglicherweise mit Libgen, einem „Links -Aggregator“, der Zugriff auf urheberrechtlich geschützte Werke von Publishern bietet, als Alternative zu Datenquellen, die Meta lizenzieren könnte.
Libgen wurde mehrmals verklagt, zum Schließen befohlen und zehn Millionen Dollar wegen Urheberrechtsverletzung belegt. Einer von Kambadurs Kollegen reagierte mit einem Screenshot Von einem Google -Suchergebnis für Libgen, das den Snippet enthält. „Nein, Libgen ist nicht legal.“
Einige Entscheidungsträger innerhalb von Meta scheinen den Eindruck zu haben, dass das Versäumnis, Libgen für das Modelltraining zu verwenden, die Wettbewerbsfähigkeit von Meta im KI-Rennen ernsthaft beeinträchtigen könnte. nach den Einreichungen.
In einer E -Mail, die an Meta AI VP Joelle Pineau, Sony Theakanath, Direktor des Produktmanagements bei Meta, als „essentiell für SOTA -Nummern in allen Kategorien“ gerichtet ist, bezieht Benchmark -Kategorien.
Theakanath skizzierte auch „Minderungen“ in der E -Mail, um die rechtliche Exposition von Meta zu verringern, einschließlich der Entfernung von Daten von Libgen, die „klar als Raubkopie/gestohlen“ markiert sind und auch nicht öffentlich nicht öffentlich anführten. „Wir würden die Verwendung von Libgen -Datensätzen, die zum Training verwendet werden, nicht offenlegen“, wie Theakanath es ausdrückte.
In practice, these mitigations entailed combing through Libgen files for words like “stolen” or “pirated,” nach den Einreichungen.
In a Arbeit ChatKambadur erwähnt Das KI -Team von Meta hat auch Modelle abgestimmt . ““
Die Einreichungen enthalten andere Enthüllungen, was impliziert, dass Meta Möglicherweise haben Reddit -Daten abgekratzt für eine Art von Modelltraining, möglicherweise durch Nachahmung des Verhaltens einer App-App genannt Pushift. Insbesondere sagte Reddit im April 2023, dass es vorhatte, KI -Unternehmen für den Zugriff auf Daten für die Modellschulung zu beginnen.
In einem Chat vom März 2024 sagte Chaya Nayak, Direktorin des Produktmanagements bei META von Generative AI Org, dass die Meta -Führung über „übergeordnete“ Entscheidungen über die Schulungsdaten in Betracht gezogen werde, einschließlich der Entscheidung, keine Quora -Inhalte oder lizenzierten Bücher und wissenschaftlichen Artikel zu verwenden, und wissenschaftliche Artikeln, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht zu verwenden, und wissenschaftliche Artikel, die nicht verwendet werden. Um sicherzustellen, dass die Modelle des Unternehmens über ausreichende Schulungsdaten verfügen.
Nayak implizierte, dass Metas Erstanbieter-Trainingsdatensätze Meta für Geschäft Nachrichten – einfach nicht genug. „Wir brauchen mehr Daten“, schrieb sie.
Die Kläger in Kadrey gegen Meta haben ihre Beschwerde mehrmals geändert Bestimmte Raubbücher mit urheberrechtlich geschützten Büchern, die Lizenz zur Verfügung stellen, um festzustellen, ob es sinnvoll war, eine Lizenzvereinbarung mit einem Verlag zu verfolgen.
In einem Anzeichen dafür, wie hoch Meta die rechtlichen Einsätze betrachtet, das Unternehmen hat hinzugefügt Zwei Rechtsstreitiger des Obersten Gerichtshofs der Anwaltskanzlei Paul Weiss zu seinem Verteidigungsteam in diesem Fall.
Meta antwortete nicht sofort auf eine Anfrage nach Kommentar.