Ein YouTube-Initiator möchte eine Sammelklage gegen OpenAI einreichen. Er behauptet, dass das Unternehmen seine generativen KI-Modelle anhand von Millionen von Transkripten aus YouTube-Videos trainiert habe, ohne die Eigentümer der Videos zu benachrichtigen oder zu entschädigen.
In einem Beschwerde Die Anwälte von David Millette, einem YouTube-Nutzer aus Massachusetts, haben letzten Freitag beim US-Bezirksgericht für den nördlichen Bezirk von Kalifornien Klage eingereicht und behaupten, dass OpenAI die Videos von Millette und anderen YouTubern heimlich transkribiert habe, um die Modelle zu trainieren, die die KI-gestützte Chatbot-Plattform des Unternehmens, ChatGPT, und andere generative KI-Tools und -Produkte antreiben. Durch das Sammeln dieser Daten habe OpenAI „erheblich von der Arbeit der YouTuber profitiert“, heißt es in der Klage, und gleichzeitig gegen das Urheberrecht und die Nutzungsbedingungen von YouTube verstoßen, die die Verwendung von Videos für Apps unabhängig vom Dienst verbieten.
„Als [OpenAI’s] KI-Produkte werden durch die Verwendung von Trainingsdatensätzen ausgefeilter und wertvoller für potenzielle und aktuelle Benutzer, die Abonnements erwerben, um auf [OpenAI’s] KI-Produkte“, heißt es in der Beschwerde. „Ein Großteil des Materials in den Trainingsdatensätzen von OpenAI stammt jedoch aus Werken, die von OpenAI ohne Zustimmung, ohne Quellenangabe und ohne Entschädigung kopiert wurden.“
Millette, vertreten durch die Anwaltskanzlei Bursor and Fisher, fordert ein Schwurgerichtsverfahren und über 5 Millionen Dollar Schadensersatz für alle YouTube-Nutzer, deren Daten möglicherweise beim Training von OpenAI abgegriffen wurden.
Generative KI-Modelle wie die von OpenAI besitzen keine echte Intelligenz. Anhand einer enormen Anzahl von Beispielen (z. B. Filme, Sprachaufnahmen, Aufsätze usw.) „lernen“ die Modelle anhand von Mustern, wie wahrscheinlich das Auftreten bestimmter Daten ist, und berücksichtigen dabei den Kontext aller umgebenden Daten.
Die meisten Modelle werden mit Daten trainiert, die von öffentlichen Websites und Datensätzen aus dem Internet stammen. Unternehmen argumentieren, dass Fair Use ihre Bemühungen abschirmt, Daten wahllos abzugreifen und sie zum Trainieren kommerzieller Modelle zu verwenden. Viele Urheberrechtsinhaber sind jedoch anderer Meinung – und reichen Klagen ein, um diese Praxis zu unterbinden.
Videotranskriptionen sind zu einem wichtigen Bestandteil der Trainingsdaten geworden, da andere Datenquellen sozusagen versiegen.
Mehr als 35 % der 1.000 wichtigsten Websites der Welt blockieren mittlerweile den Webcrawler von OpenAI, so die Daten von Originalität.AIUnd rund 25 % der Daten aus „hochwertigen“ Quellen wurden aus den wichtigsten Datensätzen ausgeschlossen, die zum Trainieren von KI-Modellen verwendet werden, ein Studie von der Data Provenance Initiative des MIT festgestellt. Sollte sich der aktuelle Trend zur Zugangsblockierung fortsetzen, wird die Forschungsgruppe Epoch AI sagt voraus dass den Entwicklern zwischen 2026 und 2032 die Daten ausgehen werden, um generative KI-Modelle zu trainieren.
Im April schrieb die New York Times gemeldet dass OpenAI sein erstes Spracherkennungsmodell, Whisper, erstellt hat, um Audio aus Videos zu transkribieren und zusätzliche Trainingsdaten zu sammeln. Ein OpenAI-Team, zu dem auch der Präsident des Unternehmens, Greg Brockman, gehörte, transkribierte laut The Times mehr als eine Million Stunden Video von YouTube mit Whisper und nutzte die Transkripte, um OpenAIs Textgenerierungs- und -analysemodell GPT-4 zu trainieren.
Laut The Times diskutierten einige Mitarbeiter von OpenAI, dass ein solcher Schritt möglicherweise gegen die Regeln von YouTube verstoßen könnte.
Im Juli, Proof News gemeldet dass Unternehmen wie Anthropic, Apple, Salesforce und Nvidia einen Datensatz namens „The Pile“ verwendeten, der Untertitel aus Hunderttausenden von YouTube-Videos enthält, um generative KI-Modelle zu trainieren. Viele YouTube-Ersteller, deren Untertitel in „The Pile“ aufgetaucht sind, waren sich dessen nicht bewusst und stimmten dem nicht zu; Apple veröffentlichte später eine Erklärung, in der es hieß, dass es nicht beabsichtige, diese Modelle zu verwenden, um KI-Funktionen in seinen Produkten zu betreiben.
Auch Google, die Muttergesellschaft von YouTube, hat versucht, Transkripte zum Trainieren seiner Modelle zu verwenden.
Letztes Jahr, Google hat seine Servicebedingungen erweitert teilweise, um dem Unternehmen zu ermöglichen, mehr Benutzerdaten für das Training generativer KI-Modelle zu nutzen. Unter den alten Nutzungsbedingungen war nicht klar, ob Google YouTube-Daten verwenden konnte, um Produkte jenseits der Videoplattform zu entwickeln. Unter den neuen Bedingungen ist dies nicht der Fall, und die Zügel werden erheblich gelockert.
Wir haben OpenAI und Google um einen Kommentar zu der Sammelklage gebeten und werden diesen Artikel aktualisieren, wenn sie antworten.
Für OpenAI war der Monat ein schwieriger Start.
Elon Musk, CEO von Tesla und X, hat am Montag eine neue Klage gegen OpenAI und CEO Sam Altman eingereicht. Er wirft dem Unternehmen vor, seine ursprüngliche gemeinnützige Mission aufgegeben zu haben, indem es einige seiner fortschrittlichsten Technologien kommerziellen Kunden vorbehalten hat. Musk erhob die gleichen Vorwürfe in einer Klage im Februar gegen OpenAI, aber die neue Klage behauptet, dass OpenAI ebenfalls in kriminelle Machenschaften verwickelt sei.