Anwälte der „New York Times“ und „Daily News“, die OpenAI verklagen, weil es angeblich ohne Erlaubnis ihre Werke gecrapst hat, um seine KI-Modelle zu trainieren, sagen, OpenAI-Ingenieure hätten versehentlich Daten gelöscht, die möglicherweise für den Fall relevant seien.
Anfang Herbst erklärte sich OpenAI bereit, zwei virtuelle Maschinen bereitzustellen, damit die Anwälte von The Times und Daily News in ihren KI-Trainingssätzen nach ihren urheberrechtlich geschützten Inhalten suchen konnten. (Virtuelle Maschinen sind softwarebasierte Computer, die im Betriebssystem eines anderen Computers vorhanden sind und häufig zum Testen, Sichern von Daten und Ausführen von Apps verwendet werden.) In a BriefLaut Angaben der Anwälte der Herausgeber haben sie und die von ihnen beauftragten Experten seit dem 1. November über 150 Stunden damit verbracht, die Trainingsdaten von OpenAI zu durchsuchen.
Doch am 14. November löschten OpenAI-Ingenieure alle auf einer der virtuellen Maschinen gespeicherten Suchdaten der Herausgeber, wie aus dem oben genannten Schreiben hervorgeht, das am späten Mittwoch beim US-Bezirksgericht für den südlichen Bezirk von New York eingereicht wurde.
OpenAI versuchte, die Daten wiederherzustellen – und war größtenteils erfolgreich. Da jedoch die Ordnerstruktur und die Dateinamen „unwiederbringlich“ verloren gingen, können die wiederhergestellten Daten „nicht dazu verwendet werden, festzustellen, wo die kopierten Artikel der Nachrichtenkläger zum Aufbau verwendet wurden.“ [OpenAI’s] Modelle“, heißt es in dem Brief.
„Nachrichtenkläger waren gezwungen, ihre Arbeit von Grund auf neu zu erstellen und dabei erhebliche Arbeitsstunden und Computerverarbeitungszeit in Anspruch zu nehmen“, schrieben die Anwälte von The Times und Daily News. „Die Nachrichtenkläger haben erst gestern erfahren, dass die wiederhergestellten Daten unbrauchbar sind und dass die Arbeit ihrer Experten und Anwälte einer ganzen Woche lang wiederholt werden muss, weshalb dieses ergänzende Schreiben heute eingereicht wird.“
Der Anwalt der Kläger stellt klar, dass sie keinen Grund zu der Annahme haben, dass die Löschung beabsichtigt war. Sie sagen jedoch, dass der Vorfall unterstreicht, dass OpenAI „in der besten Position ist, seine eigenen Datensätze zu durchsuchen“ und mithilfe seiner eigenen Tools nach potenziell rechtsverletzenden Inhalten sucht.
Ein OpenAI-Sprecher lehnte eine Stellungnahme ab.
Doch am späten Freitag, dem 22. November, reichte der Anwalt von OpenAI eine Klage ein Antwort zu dem Brief, den Anwälte am Mittwoch für The Times und Daily News verschickten. In ihrer Antwort bestritten die Anwälte von OpenAI eindeutig, dass OpenAI jegliche Beweise gelöscht habe, und behaupteten stattdessen, dass die Kläger für eine Fehlkonfiguration des Systems verantwortlich seien, die zu einem technischen Problem geführt habe.
„Die Kläger beantragten eine Konfigurationsänderung an einer von mehreren Maschinen, die OpenAI zur Suche nach Trainingsdatensätzen bereitgestellt hat“, schrieb der Anwalt von OpenAI. „Die Umsetzung der von den Klägern geforderten Änderung führte jedoch dazu, dass die Ordnerstruktur und einige Dateinamen auf einer Festplatte entfernt wurden – einem Laufwerk, das als temporärer Cache verwendet werden sollte … Jedenfalls gibt es keinen Grund zu der Annahme, dass Dateien vorhanden sind waren tatsächlich verloren.“
In diesem und anderen Fällen hat OpenAI behauptet, dass das Trainieren von Modellen unter Verwendung öffentlich verfügbarer Daten – einschließlich Artikeln aus The Times und Daily News – eine faire Verwendung darstellt. Mit anderen Worten: Bei der Entwicklung von Modellen wie GPT-4o, die aus Milliarden von Beispielen von E-Books, Aufsätzen und mehr „lernen“, um menschlich klingenden Text zu generieren, ist OpenAI davon überzeugt, dass keine Lizenzierung oder anderweitige Bezahlung erforderlich ist die Beispiele – auch wenn es mit diesen Modellen Geld verdient.
Allerdings hat OpenAI Lizenzverträge mit einer wachsenden Zahl neuer Verlage abgeschlossen, darunter Associated Press, Business Insider-Inhaber Axel Springer, Financial Times, People-Muttergesellschaft Dotdash Meredith und News Corp. OpenAI hat sich geweigert, die Bedingungen dafür festzulegen Deals öffentlich, aber ein Content-Partner, Dotdash, ist es angeblich mindestens 16 Millionen US-Dollar pro Jahr erhalten.
OpenAI hat weder bestätigt noch dementiert, dass es seine KI-Systeme ohne Erlaubnis auf bestimmte urheberrechtlich geschützte Werke trainiert hat.
Update: Antwort von OpenAI auf die Vorwürfe hinzugefügt.