Forscher schlagen vor, von OpenAI ausgebildete KI -Modelle für Paywalled O’Reilly -Bücher

Openai wurde von beschuldigt von viele Schulungsparteien seine KI für urheberrechtlich geschützte Inhalte ohne Erlaubnis. Jetzt ein neu Papier Durch eine AI-Wachhautorganisation wird der ernsthafte Anschuldigungen vorliegt, dass das Unternehmen zunehmend auf nicht öffentliche Bücher angewiesen wurde, dass es keine anspruchsvollere KI-Modelle schenkte.

KI -Modelle sind im Wesentlichen komplexe Vorhersagemotoren. Auf viele Daten ausgebildet – Bücher, Filme, Fernsehsendungen usw. – lernen sie Muster und neuartige Möglichkeiten, aus einer einfachen Eingabeaufforderung zu extrapolieren. Wenn ein Modell einen Aufsatz über eine griechische Tragödie „schreibt“ oder Bilder im Ghibli-Stil „zeichnet“, zieht es einfach von seinem riesigen Wissen angenähert. Es kommt nicht zu etwas Neuem an.

Während eine Reihe von AI-Labors, darunter OpenAI, mit der Einnahme von Daten von A-generierten Daten begonnen haben, um die KI zu schulen, da sie die realen Quellen (hauptsächlich das öffentliche Web) erschöpfen, haben nur wenige die realen Daten vollständig verzichtet. Dies liegt wahrscheinlich daran, dass das Training mit rein synthetischen Daten mit Risiken verbunden ist, wie die Verschlechterung der Leistung eines Modells.

Das neue Papier, das aus dem AI-Offenlegungsprojekt aus dem Medienmogul Tim O’Reilly und dem Ökonom Ilan Strauss, ein gemeinnütziger Projekt, der im Jahr 2024 mitbegründet wurde, zieht die Schlussfolgerung, dass Openai wahrscheinlich sein GPT-4O-Modell für Paywalled-Bücher von O’Reilly Media ausgebildet hat. (O’Reilly ist der CEO von O’Reilly Media.)

In ChatGPT ist GPT-4O das Standardmodell. O’Reilly hat kein Lizenzvertrag mit OpenAI, heißt es in der Zeitung.

„GPT-4O, OpenAs neueres und fähigeres Modell, zeigt eine starke Anerkennung von Paywalled O’Reilly-Buchinhalten […] Im Vergleich zu OpenAs früherem Modell GPT-3,5 Turbo schrieb die Co-Autoren des Papiers.

Das Papier verwendete eine Methode genannt De-coperstmals in einem akademischen Papier im Jahr 2024 eingeführt, um urheberrechtlich geschützte Inhalte in den Trainingsdaten von Sprachmodellen zu erkennen. Auch als „Mitgliederinferenzangriff“ bezeichnet, testet das Methode, ob ein Modell menschlich verfasste Texte von umscharfen, mit AI-generierten Versionen desselben Textes zuverlässig unterscheiden kann. Wenn dies möglich ist, wird vorgeschlagen, dass das Modell möglicherweise über die Kenntnisse des Textes aus seinen Trainingsdaten verfügt.

Die Mitautoren des Papiers-O’Reilly, Strauss und AI-Forscher Sruly Rosenblat-sagen, dass sie GPT-4O, GPT-3,5 Turbo und andere OpenAI-Models über O’Reilly Media-Bücher, die vor und nach ihren Schulungen veröffentlicht wurden, untersucht haben. Sie verwendeten 13.962 Absatzauszüge aus 34 O’Reilly -Büchern, um die Wahrscheinlichkeit zu schätzen, dass ein bestimmter Auszug in den Trainingsdatensatz eines Modells aufgenommen wurde.

Laut den Ergebnissen des Papiers „erkannte“ GPT-4O weitaus mehr Pay-Aw-O’Reilly-Buchinhalte als die älteren Modelle von Openai, einschließlich GPT-3,5-Turbo. Dies gilt auch nach der Berücksichtigung potenzieller verwirrender Faktoren, wie die Autoren, wie die Fähigkeit der neueren Modelle, herauszufinden, ob der Text menschlich ist.

„GPT-4O [likely] Erkennt und so, dass viele nicht öffentliche O’Reilly-Bücher vor dem Datum des Schulungsabschlusses veröffentlicht wurden “, schrieb die Co-Autoren.

Es ist keine rauchende Waffe, die Co-Autoren sind darauf hingewiesen, dass sie beachten. Sie erkennen an, dass ihre experimentelle Methode nicht narrensicher ist und dass Openai möglicherweise die Paywalled -Buchauszüge von Benutzern gesammelt haben, die sie kopieren und in Chatgpt einfügen.

Die Co-Autoren, die die jüngsten Modelle von Openai, einschließlich GPT-4,5- und „Argumentations“ -Modellen wie O3-Mini und O1, nicht bewertet haben. Es ist möglich, dass diese Modelle nicht auf Paywalled O’Reilly-Buchdaten geschult wurden oder auf weniger als GPT-4O geschult wurden.

Davon abgesehen ist es kein Geheimnis, dass OpenAI, das sich für lockerere Beschränkungen für die Entwicklung von Modellen mithilfe urheberrechtlich geschützter Daten eingesetzt hat, seit einiger Zeit nach Trainingsdaten mit höherer Qualität sucht. Das Unternehmen ist so weit gegangen Stellen Sie Journalisten ein, um die Ausgaben seiner Modelle zu optimieren. Das ist ein Trend in der breiteren Branche: KI -Unternehmen rekrutieren Experten für Bereiche wie Wissenschaft und Physik zu Wenn diese Experten effektiv ihr Wissen in KI -Systeme versorgen lassen.

Es ist zu beachten, dass Openai zumindest einige seiner Schulungsdaten zahlt. Das Unternehmen verfügt über Lizenzgeschäfte mit Nachrichtenverlagern, sozialen Netzwerken, Aktienmedienbibliotheken und anderen. OpenAI bietet auch Opt-out-Mechanismen an- wenn auch unvollkommene – Dadurch können Urheberrechtseigentümer inhalt markieren, die sie bevorzugen würden, dass das Unternehmen nicht für Schulungszwecke verwendet wird.

Dennoch, da Openai um mehrere Anzüge gegen seine Schulungsdatenpraktiken und die Behandlung des Urheberrechts vor US -Gerichten kämpft, ist das O’Reilly -Papier nicht das schmeichelhafteste Aussehen.

Openai antwortete nicht auf eine Anfrage nach Kommentaren.

tch-1-tech