Daten bilden das Herzstück moderner KI-Systeme, doch sie werden immer teurer – und sind damit für alle außer den reichsten Technologieunternehmen unerschwinglich.
Letztes Jahr verfasste James Betker, ein Forscher bei OpenAI, einen Beitrag auf seinem persönlichen Blog über die Natur generativer KI-Modelle und die Datensätze, mit denen sie trainiert werden. Darin behauptete Betker, dass Trainingsdaten – und nicht das Design, die Architektur oder andere Eigenschaften eines Modells – der Schlüssel zu immer ausgefeilteren, leistungsfähigeren KI-Systemen seien.
„Wenn das Modell lange genug mit demselben Datensatz trainiert wird, konvergiert praktisch jedes Modell zum gleichen Punkt“, schrieb Betker.
Hat Betker Recht? Sind Trainingsdaten der wichtigste Faktor, der bestimmt, was ein Modell leisten kann – ob es eine Frage beantworten, menschliche Hände zeichnen oder eine realistische Stadtlandschaft erzeugen soll?
Das ist durchaus plausibel.
Statistische Maschinen
Generative KI-Systeme sind im Grunde probabilistische Modelle – ein riesiger Haufen Statistiken. Sie raten auf der Grundlage einer großen Anzahl von Beispielen, welche Daten wo am „sinnvollsten“ platziert werden (z. B. das Wort „go“ vor „to the market“ im Satz „I go to the market“). Es scheint daher intuitiv, dass die Leistung von Modellen, die anhand dieser Beispiele trainiert wurden, umso besser ist, je mehr Beispiele einem Modell zur Verfügung stehen.
„Es scheint, als kämen die Leistungssteigerungen von den Daten“, sagte Kyle Lo, ein leitender Wissenschaftler für angewandte Forschung am Allen Institute for AI (AI2), einer gemeinnützigen Organisation für KI-Forschung, gegenüber Tech, „zumindest, wenn man erst einmal über ein stabiles Trainings-Setup verfügt.“
Lo nannte als Beispiel Metas Llama 3, ein Anfang des Jahres veröffentlichtes Textgenerierungsmodell, das AI2s eigenes OLMo-Modell trotz sehr ähnlicher Architektur übertrifft. Llama 3 wurde mit deutlich mehr Daten trainiert als OLMo, was laut Lo seine Überlegenheit bei vielen gängigen KI-Benchmarks erklärt.
(Ich möchte hier darauf hinweisen, dass die heute in der KI-Branche weit verbreiteten Benchmarks nicht unbedingt der beste Maßstab für die Leistung eines Modells sind, aber abgesehen von qualitativen Tests wie unseren eigenen sind sie einer der wenigen Maßstäbe, auf die wir uns stützen können.)
Das bedeutet allerdings nicht, dass das Training mit exponentiell größeren Datensätzen ein sicherer Weg zu exponentiell besseren Modellen ist. Modelle arbeiten nach dem Paradigma „Garbage in, Garbage out“, merkt Lo an, und daher sind Datenkuratierung und -qualität sehr wichtig, vielleicht sogar wichtiger als die reine Quantität.
„Es ist möglich, dass ein kleines Modell mit sorgfältig entworfenen Daten ein großes Modell übertrifft“, fügte er hinzu. „Beispielsweise liegt Falcon 180B, ein großes Modell, im LMSYS-Benchmark auf Platz 63, während Llama 2 13B, ein viel kleineres Modell, auf Platz 56 liegt.“
In einem Interview mit Tech im vergangenen Oktober sagte OpenAI-Forscher Gabriel Goh, dass höherwertige Anmerkungen enorm zur verbesserten Bildqualität in DALL-E 3, OpenAIs Text-zu-Bild-Modell, gegenüber seinem Vorgänger DALL-E 2 beigetragen haben. „Ich denke, das ist die Hauptquelle der Verbesserungen“, sagte er. „Die Textanmerkungen sind viel besser als sie waren [with DALL-E 2] — es ist nicht einmal vergleichbar.“
Viele KI-Modelle, darunter DALL-E 3 und DALL-E 2, werden trainiert, indem menschliche Annotatoren Daten beschriften, sodass ein Modell lernen kann, diese Beschriftungen mit anderen, beobachteten Merkmalen dieser Daten zu verknüpfen. Ein Modell, dem beispielsweise viele Katzenbilder mit Anmerkungen für jede Rasse zugeführt werden, wird schließlich „lernen“, Begriffe wie Stummelschwanz Und kurzes Haar mit ihren unverwechselbaren visuellen Merkmalen.
Schlechtes Benehmen
Experten wie Lo befürchten, dass die zunehmende Betonung großer, qualitativ hochwertiger Trainingsdatensätze die KI-Entwicklung auf wenige Akteure mit Milliardenbudgets konzentrieren wird, die es sich leisten können, diese Datensätze zu erwerben. Große Innovationen in synthetische Daten oder eine grundlegende Architektur könnte den Status quo stören, doch beides scheint in naher Zukunft nicht zu geschehen.
„Insgesamt werden Einrichtungen, die potenziell nützliche Inhalte für die KI-Entwicklung verwalten, dazu angehalten, ihre Materialien unter Verschluss zu halten“, sagte Lo. „Und wenn der Zugang zu Daten eingeschränkt wird, belohnen wir im Grunde einige wenige Vorreiter bei der Datenerfassung und ziehen die Leiter hoch, damit niemand sonst Zugriff auf die Daten erhält, um aufzuholen.“
Zwar hat der Wettlauf um mehr Trainingsdaten nicht zu unethischem (und vielleicht sogar illegalem) Verhalten wie der heimlichen Sammlung urheberrechtlich geschützter Inhalte geführt, aber die Technologiegiganten wurden mit tiefen Taschen belohnt, die sie für die Lizenzierung von Daten ausgeben konnten.
Generative KI-Modelle wie die von OpenAI werden hauptsächlich mit Bildern, Texten, Audiodaten, Videos und anderen Daten trainiert – einige davon urheberrechtlich geschützt – die von öffentlichen Webseiten stammen (einschließlich problematischKI-generierte). Die OpenAIs dieser Welt behaupten, dass Fair Use sie vor rechtlichen Repressalien schützt. Viele Rechteinhaber sind anderer Meinung – aber zumindest im Moment können sie nicht viel tun, um diese Praxis zu verhindern.
Es gibt unzählige Beispiele dafür, dass Anbieter generativer KI auf fragwürdige Weise riesige Datensätze erwerben, um ihre Modelle zu trainieren. OpenAI Berichten zufolge hat mehr als eine Million Stunden YouTube-Videos ohne die Zustimmung von YouTube – oder den Segen der Urheber – transkribiert, um sie in sein Flaggschiff-Modell GPT-4 einzuspeisen. Google hat kürzlich seine Nutzungsbedingungen teilweise erweitert, um öffentliche Google Docs, Restaurantbewertungen auf Google Maps und anderes Online-Material für seine KI-Produkte nutzen zu können. Und Meta soll erwogen haben, Klagen zu riskieren, um Trainieren Sie seine Modelle auf IP-geschützten Inhalten.
Mittlerweile verlassen sich große und kleine Unternehmen auf Arbeiter in Ländern der Dritten Welt erhielten nur wenige Dollar pro Stunde um Annotationen für Trainingssets zu erstellen. Einige dieser Annotatoren – eingesetzt von Mammut-Startups wie Scale AI – arbeiten buchstäblich tagelang, um Aufgaben zu erledigen, bei denen sie grafischen Darstellungen von Gewalt und Blutvergießen ausgesetzt werden, ohne dass sie dabei irgendwelche Vorteile oder Garantien für zukünftige Aufträge erhalten.
Steigende Kosten
Mit anderen Worten: Selbst die seriöseren Datengeschäfte fördern nicht gerade ein offenes und gerechtes Ökosystem für generative KI.
OpenAI hat Hunderte Millionen Dollar ausgegeben, um Inhalte von Nachrichtenverlagen, Stock-Mediatheken und mehr zu lizenzieren, um seine KI-Modelle zu trainieren – ein Budget, das weit über dem der meisten akademischen Forschungsgruppen, gemeinnützigen Organisationen und Start-ups liegt. Meta ist sogar so weit gegangen, die Übernahme des Verlags Simon & Schuster für die Rechte an E-Book-Auszügen in Erwägung zu ziehen (letztendlich wurde Simon & Schuster 2023 für 1,62 Milliarden Dollar an die Private-Equity-Firma KKR verkauft).
Da der Markt für KI-Trainingsdaten voraussichtlich wachsen Von derzeit rund 2,5 Milliarden Dollar auf fast 30 Milliarden Dollar innerhalb eines Jahrzehnts: Datenbroker und -plattformen drängen sich darauf, Höchstpreise zu verlangen – in einigen Fällen trotz der Einwände ihrer Nutzerbasis.
Stock-Medienbibliothek Shutterstock hat eingefärbt Verträge mit KI-Anbietern im Wert von 25 bis 50 Millionen US-Dollar, während Reddit behauptet, Hunderte Millionen durch die Lizenzierung von Daten an Organisationen wie Google und OpenAI verdient zu haben. Nur wenige Plattformen mit reichlich Daten, die im Laufe der Jahre organisch angesammelt wurden nicht hat offenbar Vereinbarungen mit Entwicklern generativer KI unterzeichnet – von Photobucket über Tumblr bis hin zur Q&A-Site Stack Overflow.
Es sind die Daten der Plattformen, die sie verkaufen – zumindest je nachdem, welchen juristischen Argumenten man Glauben schenkt. Doch in den meisten Fällen bekommen die Nutzer keinen Cent von den Gewinnen. Und es schadet der KI-Forschungsgemeinschaft insgesamt.
„Kleinere Akteure werden sich diese Datenlizenzen nicht leisten können und daher keine KI-Modelle entwickeln oder untersuchen können“, sagte Lo. „Ich befürchte, dass dies zu einem Mangel an unabhängiger Kontrolle der KI-Entwicklungspraktiken führen könnte.“
Unabhängige Bemühungen
Wenn es einen Lichtblick in der Düsternis gibt, dann sind es die wenigen unabhängigen, gemeinnützigen Bemühungen, riesige Datensätze zu erstellen, mit denen jeder ein generatives KI-Modell trainieren kann.
EleutherAI, eine gemeinnützige Basisforschungsgruppe, die 2020 als loses Discord-Kollektiv begann, arbeitet mit der Universität Toronto, AI2 und unabhängigen Forschern zusammen, um The Pile v2 zu erstellen, eine Sammlung von Milliarden von Textpassagen, die hauptsächlich aus gemeinfreien Quellen stammen.
Im April veröffentlichte das KI-Startup Hugging Face FineWeb, eine gefilterte Version von Common Crawl – dem gleichnamigen Datensatz, der von der gemeinnützigen Organisation Common Crawl verwaltet wird und aus Milliarden und Abermilliarden von Webseiten besteht. Hugging Face behauptet, dass dies die Modellleistung bei vielen Benchmarks verbessert.
Einige Versuche, offene Trainingsdatensätze freizugeben, wie die Bilddatensätze der Gruppe LAION, stießen auf Urheberrechte, Datenschutz und andere, gleichermaßen schwerwiegende ethische und rechtliche Herausforderungen. Aber einige der engagierteren Datenkuratoren haben sich verpflichtet, es besser zu machen. The Pile v2 entfernt beispielsweise problematisches urheberrechtlich geschütztes Material, das in seinem Vorgängerdatensatz The Pile gefunden wurde.
Die Frage ist, ob diese offenen Bemühungen mit den großen Technologieunternehmen mithalten können. Solange das Sammeln und Kuratieren von Daten eine Frage der Ressourcen bleibt, lautet die Antwort wahrscheinlich nein – zumindest nicht, bis ein Forschungsdurchbruch für mehr Chancengleichheit sorgt.