Spawning möchte ethischere Trainingsdatensätze für KI erstellen

Spawning moechte ethischere Trainingsdatensaetze fuer KI erstellen

Jordan Meyer und Mathew Dryhurst gründeten Spawning AI, um Tools zu entwickeln, die Künstlern helfen, mehr Kontrolle über die Online-Nutzung ihrer Werke auszuüben. Ihr neuestes Projekt heißt Quelle.Plussoll „nicht verletzende“ Medien für das Training von KI-Modellen kuratieren.

Die erste Initiative des Source.Plus-Projekts ist ein Datensatz mit fast 40 Millionen Bildern aus dem öffentlichen Bereich und Bildern unter dem CC0-Lizenz von Creative Commonsdas es Urhebern ermöglicht, auf nahezu alle rechtlichen Ansprüche an ihren Werken zu verzichten. Meyer behauptet, dass trotz der Tatsache, dass es wesentlich kleiner ist als einige andere generative KI-Trainingsdatensätze Der Datensatz von Source.Plus ist bereits qualitativ hochwertig genug, um ein hochmodernes Bildgenerierungsmodell zu trainieren.

„Mit Source.Plus bauen wir eine universelle Opt-in-Plattform auf“, sagte Meyer. „Unser Ziel ist es, es Rechteinhabern leicht zu machen, ihre Medien für das Training generativer KI anzubieten – zu ihren eigenen Bedingungen – und es Entwicklern zu ermöglichen, diese Medien reibungslos in ihre Trainingsabläufe zu integrieren.“

Rechteverwaltung

Die Debatte um die ethischen Aspekte des Trainings generativer KI-Modelle, insbesondere kunstgenerierender Modelle wie Stable Diffusion und DALL-E 3 von OpenAI, geht unvermindert weiter – und hat massive Auswirkungen auf Künstler, wie auch immer sich der Staub am Ende legt.

Modelle der generativen KI „lernen“, ihre Ergebnisse, beispielsweise fotorealistische Kunst, zu produzieren, indem sie mit einer großen Menge relevanter Daten – in diesem Fall Bildern – trainieren. Einige Entwickler dieser Modelle argumentieren, dass sie aufgrund der Fair Use-Regelung das Recht haben, Daten aus öffentlichen Quellen zu extrahieren, unabhängig vom Urheberrechtsstatus dieser Daten. Andere haben versucht, sich an die Regeln zu halten, indem sie die Inhaltseigentümer für ihre Beiträge zu den Trainingsdatensätzen entschädigen oder ihnen zumindest Anerkennung zollen.

Meyer, der CEO von Spawning, glaubt, dass man sich noch nicht auf die beste Vorgehensweise geeinigt habe.

„Beim KI-Training werden häufig standardmäßig die einfachsten verfügbaren Daten verwendet – die nicht immer die fairsten oder verantwortungsvollsten Quellen waren“, sagte er in einem Interview mit Tech. „Künstler und Rechteinhaber hatten kaum Kontrolle darüber, wie ihre Daten für das KI-Training verwendet wurden, und Entwickler hatten keine hochwertigen Alternativen, die es einfach machten, Datenrechte zu respektieren.“

Source.Plus, verfügbar als eingeschränkte Betaversion, baut auf den vorhandenen Tools von Spawning zur Kunstherkunft und zur Verwaltung von Nutzungsrechten auf.

Im Jahr 2022 erstellte Spawning HaveIBeenTrained, eine Website, auf der Entwickler die Trainingsdatensätze der mit Spawning zusammenarbeitenden Anbieter, darunter Hugging Face und Stability AI, ablehnen können. Nachdem Spawning 3 Millionen US-Dollar Risikokapital von Investoren wie True Ventures und Seed Club Ventures eingesammelt hatte, führte es ai.text ein, eine Möglichkeit für Websites, „Berechtigungen“ für KI festzulegen, und ein System – Kudurru – zum Schutz vor Daten-Scraping-Bots.

Source.Plus ist Spawnings erster Versuch, eine Medienbibliothek aufzubauen – und diese Bibliothek intern zu verwalten. Der anfängliche Bilddatensatz, PD/CC0, kann für kommerzielle oder Forschungszwecke verwendet werden, sagt Meyer.

Die Source.Plus-Bibliothek.
Bildnachweise: Laichen

„Source.Plus ist nicht nur ein Repository für Trainingsdaten, sondern eine Anreicherungsplattform mit Tools zur Unterstützung der Trainingspipeline“, fuhr er fort. „Unser Ziel ist es, innerhalb eines Jahres einen hochwertigen, nicht verletzenden CC0-Datensatz zur Verfügung zu haben, der ein leistungsstarkes Basis-KI-Modell unterstützen kann.“

Unternehmen wie Getty Images, Adobe, Shutterstock und das KI-Startup Bria behaupten, für das Modelltraining nur Daten aus fairen Quellen zu verwenden. (Getty geht sogar so weit, seine generativen KI-Produkte als „kommerziell sicher“ zu bezeichnen.) Aber Meyer sagt, dass Spawning die Messlatte für faire Datenbeschaffung „höher legen“ will.

Source.Plus filtert Bilder nach „Opt-outs“ und anderen Präferenzen der Künstlerausbildung und zeigt Herkunftsinformationen darüber an, wie und woher die Bilder stammen. Es schließt auch Bilder aus, die nicht unter CC0 lizenziert sind, einschließlich solcher mit einer Creative Commons BY 1.0-Lizenzdie eine Namensnennung erfordern. Und Spawning sagt, dass es nach Urheberrechtsverletzungen aus Quellen Ausschau hält, bei denen jemand anderes als die Urheber für die Angabe des Urheberrechtsstatus eines Werks verantwortlich ist, wie etwa Wikimedia Commons.

„Wir haben die angegebenen Lizenzen der von uns gesammelten Bilder sorgfältig überprüft und alle fragwürdigen Lizenzen ausgeschlossen – ein Schritt, den viele ‚faire‘ Datensätze nicht unternehmen“, sagte Meyer.

In der Vergangenheit wurden sowohl öffentliche als auch kommerzielle Trainingsdatensätze durch problematische Bilder – darunter gewalttätige und pornografische sowie sensible persönliche Bilder – belastet.

Die Betreuer des LAION-Datensatzes waren gezwungen, eine Bibliothek offline zu nehmen, nachdem Berichte aufgedeckt hatten Krankenakten Und Darstellungen von sexuellem Kindesmissbrauch; gerade diese Woche ein Studie von Human Rights Watch stellte fest, dass eines der LAION-Repositories die Gesichter brasilianischer Kinder ohne deren Zustimmung oder Wissen enthielt. An anderer Stelle wurde Adobes Stock-Medienbibliothek Adobe Stock, die das Unternehmen zum Trainieren seiner generativen KI-Modelle verwendet, darunter das kunstgenerierende Firefly Image-Modell, enthält KI-generierte Bilder von Rivalen wie Midjourney.

Spawning-Quelle.Plus
Kunstwerk in der Source.Plus-Galerie.
Bildnachweise: Laichen

Die Lösung von Spawning sind Klassifikatormodelle, die darauf trainiert sind, Nacktheit, Blut, persönlich identifizierbare Informationen und andere unerwünschte Teile in Bildern zu erkennen. Da kein Klassifikator perfekt ist, plant Spawning, den Benutzern die Möglichkeit zu geben, den Source.Plus-Datensatz „flexibel“ zu filtern, indem sie die Erkennungsschwellen der Klassifikatoren anpassen, sagt Meyer.

„Wir beschäftigen Moderatoren, die die Dateneigentümerschaft überprüfen“, fügte Meyer hinzu. „Wir haben auch integrierte Korrekturfunktionen, mit denen Benutzer anstößige oder möglicherweise rechtsverletzende Werke kennzeichnen können und die Art und Weise, wie diese Daten verwendet wurden, nachverfolgt werden kann.“

Entschädigung

Die meisten Programme, die Urheber für ihre Beiträge zu Trainingsdaten für generative KI entschädigen sollen, sind nicht besonders gut gelaufen. Einige Programme verlassen sich bei der Berechnung der Auszahlungen an Urheber auf undurchsichtige Kennzahlen, während andere Beträge auszahlen, die die Künstler für unangemessen niedrig halten.

Nehmen wir zum Beispiel Shutterstock. Die Stock-Mediathek, die mit KI-Anbietern Verträge im zweistelligen Millionenbereich abgeschlossen hat, zahlt in einen „Beitragsfonds“ für Kunstwerke ein, die sie zum Trainieren ihrer generativen KI-Modelle verwendet, oder für Lizenzen an Drittentwickler. Shutterstock ist jedoch nicht transparent, was die Künstler zu erwarten haben, und erlaubt es ihnen auch nicht, ihre eigenen Preise und Bedingungen festzulegen. Einer Schätzung eines Drittanbieters zufolge beträgt der Verdienst 15 Dollar für 2.000 Bilder, nicht gerade eine weltbewegende Summe.

Sobald Source.Plus später in diesem Jahr die Betaphase verlässt und auf Datensätze jenseits von PD/CC0 erweitert wird, wird es einen anderen Kurs als andere Plattformen einschlagen und es Künstlern und Rechteinhabern ermöglichen, ihre eigenen Preise pro Download festzulegen. Spawning wird eine Gebühr erheben, aber nur einen Pauschalbetrag – ein „Zehntel eines Pennys“, sagt Meyer.

Kunden können sich auch dafür entscheiden, Spawning 10 $ pro Monat – zuzüglich der üblichen Download-Gebühr pro Bild – für Source.Plus Curation zu bezahlen. Dabei handelt es sich um ein Abonnement, mit dem sie Bildsammlungen privat verwalten, den Datensatz bis zu 10.000 Mal pro Monat herunterladen und frühzeitig auf neue Funktionen wie „Premium“-Sammlungen und Datenanreicherung zugreifen können.

Spawning-Quelle.Plus
Bildnachweise: Laichen

„Wir werden Leitlinien und Empfehlungen auf Grundlage aktueller Branchenstandards und interner Kennzahlen bereitstellen, aber letztendlich entscheiden die Mitwirkenden des Datensatzes, was sich für sie lohnt“, sagte Meyer. „Wir haben dieses Preismodell bewusst gewählt, um den Künstlern den Löwenanteil der Einnahmen zu geben und ihnen die Möglichkeit zu geben, ihre eigenen Bedingungen für die Teilnahme festzulegen. Wir glauben, dass diese Einnahmenaufteilung für Künstler deutlich günstiger ist als die üblichere prozentuale Einnahmenaufteilung und zu höheren Auszahlungen und mehr Transparenz führen wird.“

Sollte Source.Plus den von Spawning erhofften Erfolg haben, beabsichtigt Spawning, es über Bilder hinaus auch auf andere Medientypen auszuweiten, darunter Audio und Video. Spawning befindet sich in Gesprächen mit ungenannten Firmen, um deren Daten auf Source.Plus verfügbar zu machen. Und, so Meyer, könnte Spawning seine eigenen generativen KI-Modelle mit Daten aus den Source.Plus-Datensätzen erstellen.

„Wir hoffen, dass Rechteinhaber, die an der generativen KI-Wirtschaft teilnehmen möchten, die Möglichkeit dazu haben und dafür eine faire Vergütung erhalten“, sagte Meyer. „Wir hoffen auch, dass Künstler und Entwickler, die sich hinsichtlich der Beschäftigung mit KI im Zwiespalt befanden, die Möglichkeit haben, dies auf eine Weise zu tun, die anderen Kreativen gegenüber respektvoll ist.“

Spawning muss sich hier sicherlich eine Nische erobern. Source.Plus scheint einer der vielversprechendsten Versuche zu sein, Künstler in den generativen KI-Entwicklungsprozess einzubeziehen – und sie am Gewinn ihrer Arbeit teilhaben zu lassen.

Wie meine Kollegin Amanda kürzlich schrieb, zeigt das Aufkommen von Apps wie der Kunst-Hosting-Community Cara, deren Nutzung sprunghaft anstieg, nachdem Meta angekündigt hatte, seine generative KI mit Inhalten von Instagram, darunter auch Künstlerinhalte, trainieren zu können, dass die kreative Community einen Bruchpunkt erreicht hat. Sie sucht verzweifelt nach Alternativen zu Unternehmen und Plattformen, die sie als Diebe wahrnehmen – und Source.Plus könnte eine brauchbare Alternative sein.

Aber wenn Spawning immer im besten Interesse der Künstler handelt (ein großes Wenn, wenn man bedenkt, dass Spawning ein VC-gestütztes Unternehmen ist), frage ich mich, ob Source.Plus so erfolgreich wachsen kann, wie Meyer es sich vorstellt. Wenn uns die sozialen Medien etwas gelehrt haben, dann, dass die Moderation – insbesondere von Millionen von benutzergenerierten Inhalten – ein unlösbares Problem ist.

Wir werden es früh genug herausfinden.

tch-1-tech