Viele Unternehmen sagen nicht, ob sie das kalifornische Gesetz zur Transparenz von KI-Schulungen einhalten werden

Am Sonntag unterzeichnete der Gouverneur von Kalifornien, Gavin Newsom, den Gesetzentwurf AB-2013, der Unternehmen, die generative KI-Systeme entwickeln, dazu verpflichtet, eine allgemeine Zusammenfassung der Daten zu veröffentlichen, die sie zum Trainieren ihrer Systeme verwendet haben. In den Zusammenfassungen muss unter anderem dargelegt werden, wem die Daten gehören, wie sie beschafft oder lizenziert wurden und ob sie urheberrechtlich geschützte oder personenbezogene Daten enthalten.

Nur wenige KI-Unternehmen sind bereit zu sagen, ob sie sich daran halten werden.

Tech kontaktierte wichtige Akteure im KI-Bereich, darunter OpenAI, Anthropic, Microsoft, Google, Amazon, Meta und die Startups Stability AI, Midjourney, Udio, Suno, Runway und Luma Labs. Weniger als die Hälfte antwortete und ein Anbieter – Microsoft – lehnte eine Stellungnahme ausdrücklich ab.

Nur Stability, Runway und OpenAI teilten Tech mit, dass sie AB-2013 einhalten würden.

„OpenAI hält sich an die Gesetze der Gerichtsbarkeiten, in denen wir tätig sind, einschließlich dieser“, sagte ein OpenAI-Sprecher. Ein Sprecher von Stability sagte, das Unternehmen unterstütze „eine durchdachte Regulierung, die die Öffentlichkeit schützt und gleichzeitig Innovationen nicht unterdrückt.“

Fairerweise muss man sagen, dass die Offenlegungspflichten von AB-2013 nicht sofort in Kraft treten. Sie gelten zwar für Systeme, die ab Januar 2022 veröffentlicht werden – ChatGPT und Stable Diffusion, um nur einige zu nennen –, Unternehmen haben jedoch bis Januar 2026 Zeit, um mit der Veröffentlichung von Trainingsdatenzusammenfassungen zu beginnen. Das Gesetz gilt auch nur für Systeme, die den Kaliforniern zur Verfügung gestellt werden, was einen gewissen Spielraum lässt.

Es könnte aber noch einen weiteren Grund für das Schweigen der Anbieter zu diesem Thema geben, und dieser hängt mit der Art und Weise zusammen, wie die meisten generativen KI-Systeme trainiert werden.

Trainingsdaten stammen häufig aus dem Internet. Anbieter sammeln riesige Mengen an Bildern, Liedern, Videos und mehr von Websites und trainieren ihre Systeme darauf.

Vor Jahren war es für KI-Entwickler üblich, die Quellen ihrer Trainingsdaten aufzulisten, typischerweise in einem technischen Dokument, das der Veröffentlichung eines Modells beiliegt. Google gab beispielsweise einmal bekannt, dass es eine frühe Version seiner Modellfamilie zur Bilderzeugung, Imagen, für die Öffentlichkeit trainiert hat LAION Datensatz. Viele älter Papiere erwähnen Sie The Pile, eine Open-Source-Sammlung von Schulungstexten, die akademische Studien und Codebasen umfasst.

Im heutigen hart umkämpften Markt gilt die Zusammensetzung von Trainingsdatensätzen als Wettbewerbsvorteil für Unternehmen zitieren Sie dies als einer der Hauptgründe für ihre Geheimhaltung. Aber auch Trainingsdatendetails können ein rechtliches Ziel auf dem Rücken von Entwicklern darstellen. LAION verlinkt auf urheberrechtlich geschützt Und die Privatsphäre verletzend Bilder, während The Pile enthält Bücher3eine Bibliothek mit Raubkopien von Stephen King und anderen Autoren.

Davon gibt es schon einige Klagen über Missbrauch von Trainingsdaten und jeden Monat werden weitere gemeldet.

Autoren Und Verlag beanspruchen dass OpenAI, Anthropic und Meta urheberrechtlich geschützte Bücher – einige von Books3 – für das Training verwendeten. Musiklabels haben Udio und Suno vor Gericht verklagt, weil sie angeblich Lieder trainiert haben, ohne die Musiker zu entschädigen. Und Künstler haben Sammelklagen eingereicht gegen Stability und Midjourney wegen angeblicher Daten-Scraping-Praktiken, die einem Diebstahl gleichkommen.

Es ist nicht schwer zu erkennen, wie problematisch AB-2013 für Anbieter sein könnte, die versuchen, gerichtliche Auseinandersetzungen in Schach zu halten. Das Gesetz schreibt vor, dass eine Reihe potenziell belastender Spezifikationen zu Trainingsdatensätzen veröffentlicht werden müssen, einschließlich eines Hinweises, der angibt, wann die Sätze zum ersten Mal verwendet wurden und ob die Datenerfassung noch läuft.

AB-2013 ist recht breit gefächert. Jede Entität, die ein KI-System „wesentlich verändert“ – also es verfeinert oder neu trainiert –, ist dies Auch gezwungen, Informationen über die Trainingsdaten zu veröffentlichen, die sie dazu verwendet haben. Das Gesetz hat einige AusgliederungenSie beziehen sich jedoch hauptsächlich auf KI-Systeme, die in der Cybersicherheit und Verteidigung eingesetzt werden, beispielsweise für „den Betrieb von Flugzeugen im nationalen Luftraum“.

Natürlich glauben viele Anbieter, dass die als Fair Use bekannte Doktrin einen rechtlichen Schutz bietet, und Sie machen dies vor Gericht geltend und in der Öffentlichkeit Aussagen. Einige, wie Meta und Google, haben geändert Sie können die Einstellungen und Nutzungsbedingungen ihrer Plattformen anpassen, damit sie mehr Benutzerdaten für Schulungen nutzen können.

Angespornt durch den Wettbewerbsdruck und die Wetten, dass die Fair-Use-Verteidigung am Ende obsiegen wird, haben einige Unternehmen großzügig zum Thema IP-geschützte Daten geschult. Berichterstattung von Reuters enthüllte, dass Meta trotz der Warnungen seiner eigenen Anwälte einmal urheberrechtlich geschützte Bücher für die KI-Schulung verwendet hatte. Es gibt Beweis dass Runway Netflix- und Disney-Filme bezog, um seine Videoerzeugungssysteme zu trainieren. Und OpenAI angeblich transkribierte YouTube-Videos ohne Wissen der Ersteller, um Modelle zu entwickeln, einschließlich GPT-4.

Wie wir bereits geschrieben haben, gibt es ein Ergebnis, bei dem Anbieter generativer KI ungeschoren davonkommen, ob die Offenlegung von Systemschulungsdaten hin oder her geht. Die Gerichte könnten sich am Ende auf die Seite der Fair-Use-Befürworter stellen und entscheiden, dass generative KI dies ist ausreichend transformativ – und nicht die Plagiatsmaschine. Die New York Times und andere Kläger behaupten, dass dies der Fall sei.

In einem dramatischeren Szenario könnte AB-2013 dazu führen, dass Anbieter bestimmte Modelle in Kalifornien zurückhalten oder Versionen von Modellen für Kalifornier herausgeben, die nur auf faire Nutzung und lizenzierte Datensätze geschult sind. Einige Anbieter könnten zu dem Schluss kommen, dass die sicherste Vorgehensweise bei AB-2013 diejenige ist, bei der kompromittierende Offenlegungen – und daraus resultierende Rechtsstreitigkeiten – vermieden werden.

Unter der Annahme, dass das Gesetz nicht angefochten und/oder ausgesetzt wird, werden wir bis zum Ablauf der AB-2013-Frist in etwas mehr als einem Jahr ein klares Bild haben.

tch-1-tech