OpenAI hat versehentlich potenzielle Beweise in der Urheberrechtsklage der NY Times gelöscht

Anwälte der „New York Times“ und „Daily News“, die OpenAI verklagen, weil es angeblich ohne Erlaubnis ihre Werke gecrapst hat, um seine KI-Modelle zu trainieren, sagen, OpenAI-Ingenieure hätten versehentlich Daten gelöscht, die möglicherweise für den Fall relevant seien.

Anfang Herbst erklärte sich OpenAI bereit, zwei virtuelle Maschinen bereitzustellen, damit die Anwälte von The Times und Daily News in ihren Trainingsdatensätzen nach urheberrechtlich geschützten Inhalten suchen konnten. In einem Brief sagen die Anwälte der Herausgeber, dass sie und Experten seit dem 1. November über 150 Stunden damit verbracht haben, die Trainingsdaten von OpenAI zu durchsuchen.

Doch am 14. November löschten OpenAI-Ingenieure alle auf einer der virtuellen Maschinen gespeicherten Suchdaten der Herausgeber, wie aus dem oben genannten Schreiben hervorgeht, das am späten Donnerstag beim US-Bezirksgericht für den südlichen Bezirk von New York eingereicht wurde.

OpenAI hat versucht, die Daten wiederherzustellen – und war einigermaßen erfolgreich. Da jedoch die Ordnerstruktur und die Dateinamen „unwiederbringlich“ verloren gingen, können die wiederhergestellten Daten „nicht dazu verwendet werden, festzustellen, wo die kopierten Artikel der Nachrichtenkläger zum Aufbau verwendet wurden.“ [OpenAI’s] Modelle“, heißt es in dem Brief.

„Nachrichtenkläger waren gezwungen, ihre Arbeit von Grund auf neu zu erstellen und dabei erhebliche Arbeitsstunden und Computerverarbeitungszeit in Anspruch zu nehmen“, schrieben die Anwälte von The Times und Daily News. „Die Nachrichtenkläger haben erst gestern erfahren, dass die wiederhergestellten Daten unbrauchbar sind und dass die Arbeit ihrer Experten und Anwälte einer ganzen Woche lang wiederholt werden muss, weshalb dieses ergänzende Schreiben heute eingereicht wird.“

Der Anwalt der Kläger stellt klar, dass sie keinen Grund zu der Annahme haben, dass die Löschung beabsichtigt war. Sie sagen jedoch, dass der Vorfall unterstreicht, dass OpenAI „in der besten Position ist, seine eigenen Datensätze zu durchsuchen“ und mithilfe seiner eigenen Tools nach potenziell rechtsverletzenden Inhalten sucht.

Wir haben OpenAI um einen Kommentar gebeten und werden diesen Artikel aktualisieren, wenn wir etwas hören.

In diesem und anderen Fällen hat OpenAI behauptet, dass das Trainieren von Modellen unter Verwendung öffentlich verfügbarer Daten – einschließlich Artikeln aus The Times und Daily News – eine faire Verwendung darstellt. Mit anderen Worten: Bei der Entwicklung von Modellen wie GPT-4o, die aus Milliarden Beispielen von E-Books, Aufsätzen und mehr „lernen“, um menschlich klingenden Text zu generieren, ist OpenAI davon überzeugt, dass es nicht erforderlich ist, die Beispiele zu lizenzieren oder anderweitig zu bezahlen – auch wenn es mit diesen Modellen Geld verdient.

Allerdings hat OpenAI Lizenzverträge mit einer wachsenden Zahl neuer Verlage abgeschlossen, darunter The Associated Press, Business Insider-Eigentümer Axel Springer, Financial Times, die People-Muttergesellschaft Dotdash Meredith und News Corp. OpenAI hat sich geweigert, die Bedingungen dafür festzulegen Deals öffentlich, aber ein Content-Partner, Dotdash, ist es angeblich mindestens 16 Millionen US-Dollar pro Jahr erhalten.

tch-1-tech