In den letzten zwei Jahren sind KI-gestützte Bildgeneratoren dank der weit verbreiteten Verfügbarkeit dieser Technologie und der abnehmenden technischen Hürden mehr oder weniger zur Ware geworden. Sie werden von praktisch allen großen Technologieunternehmen eingesetzt, darunter Google und Microsoft, sowie von unzähligen Start-ups, die sich ein Stück vom immer lukrativer werdenden generativen KI-Kuchen ergattern möchten.
Das heißt nicht, dass sie in Bezug auf die Leistung schon konsistent sind – ganz im Gegenteil. Obwohl sich die Qualität der Bildgeneratoren verbessert hat, war es ein schrittweiser, manchmal quälender Fortschritt.
Doch Meta behauptet, einen Durchbruch geschafft zu haben.
Heute hat Meta CM3Leon („Chamäleon“ in ungeschickter Sprache) angekündigt leetspeak), ein KI-Modell, das nach Angaben des Unternehmens modernste Leistung bei der Text-zu-Bild-Generierung bietet. CM3Leon zeichnet sich auch dadurch aus, dass es einer der ersten Bildgeneratoren ist, der Bildunterschriften generieren kann und damit den Grundstein für leistungsfähigere Bildverständnismodelle in der Zukunft legt, sagt Meta.
„Mit den Fähigkeiten von CM3Leon können Bilderzeugungstools kohärentere Bilder erzeugen, die den Eingabeaufforderungen besser folgen“, schrieb Meta in einem Blogbeitrag, der Anfang dieser Woche mit Tech geteilt wurde. „Wir glauben, dass die starke Leistung von CM3Leon bei einer Vielzahl von Aufgaben ein Schritt in Richtung einer Bilderzeugung und eines Bildverständnisses mit höherer Wiedergabetreue ist.“
Die meisten modernen Bildgeneratoren, darunter DALL-E 2 von OpenAI, Imagen und Stable Diffusion von Google, verlassen sich bei der Erstellung von Kunstwerken auf einen Prozess namens Diffusion. Bei der Diffusion lernt ein Modell, das Rauschen schrittweise von einem Ausgangsbild zu entfernen, das vollständig aus Rauschen besteht, und es so Schritt für Schritt näher an die Zielaufforderung heranzuführen.
Die Ergebnisse sind beeindruckend. Die Diffusion ist jedoch rechenintensiv, was den Betrieb teuer und langsam genug macht, dass die meisten Echtzeitanwendungen unpraktisch sind.
Im Gegensatz dazu ist CM3Leon ein Transformatormodell, das einen Mechanismus namens „Aufmerksamkeit“ nutzt, um die Relevanz von Eingabedaten wie Text oder Bildern abzuwägen. Aufmerksamkeit und die anderen architektonischen Besonderheiten von Transformatoren können die Geschwindigkeit des Modelltrainings steigern und die Parallelisierbarkeit von Modellen erleichtern. Mit anderen Worten: Immer größere Transformatoren können mit erheblichen, aber nicht unerreichbaren Steigerungen der Rechenleistung trainiert werden.
Und CM3Leon ist ausgeglichen mehr effizienter als die meisten Transformatoren, behauptet Meta, erfordert fünfmal weniger Rechenleistung und einen kleineren Trainingsdatensatz als frühere transformatorbasierte Methoden.
Interessanterweise hat OpenAI vor einigen Jahren mit einem Modell namens „Transformer“ als Mittel zur Bilderzeugung untersucht Bild-GPT. Letztendlich gab man die Idee jedoch zugunsten der Verbreitung auf – und könnte bald zur „Konsistenz“ übergehen.
Um CM3Leon zu trainieren, nutzte Meta einen Datensatz mit Millionen lizenzierter Bilder von Shutterstock. Die leistungsfähigste der mehreren Versionen von CM3Leon, die Meta erstellt hat, verfügt über 7 Milliarden Parameter, mehr als doppelt so viele wie DALL-E 2. (Parameter sind die Teile des Modells, die aus Trainingsdaten gelernt wurden und im Wesentlichen die Fähigkeiten des Modells bei einem Problem definieren. wie das Generieren von Text – oder in diesem Fall von Bildern.)
Ein Schlüssel zur stärkeren Leistung von CM3Leon ist eine Technik namens Supervised Fine-Tuning, kurz SFT. SFT wurde mit großem Erfolg zum Trainieren von textgenerierenden Modellen wie ChatGPT von OpenAI verwendet, aber Meta vermutete, dass es auch nützlich sein könnte, wenn es auf die Bilddomäne angewendet wird. Tatsächlich verbesserte die Befehlsoptimierung die Leistung von CM3Leon nicht nur bei der Bilderzeugung, sondern auch beim Schreiben von Bildunterschriften, sodass es Fragen zu Bildern beantworten und Bilder bearbeiten konnte, indem es Textanweisungen befolgte (z. B. „Ändere die Farbe des Himmels in helles Blau“).
Die meisten Bildgeneratoren haben mit „komplexen“ Objekten und Textaufforderungen zu kämpfen, die zu viele Einschränkungen beinhalten. Aber CM3Leon tut das nicht – oder zumindest nicht so oft. In einigen ausgewählten Beispielen ließ Meta CM3Leon Bilder mit Aufforderungen wie „Ein kleiner Kaktus mit Strohhut und Neon-Sonnenbrille in der Sahara“, „Ein Nahaufnahmefoto einer menschlichen Hand, Handmodell“ oder „Ein Waschbärhaupt“ generieren „Charakter in einem Anime, der sich auf einen epischen Kampf mit einem Samuraischwert vorbereitet“ und „Ein Stoppschild im Fantasy-Stil mit der Aufschrift ‚1991‘.“
Zum Vergleich habe ich die gleichen Eingabeaufforderungen über DALL-E 2 ausgeführt. Einige der Ergebnisse lagen nahe beieinander. Aber die CM3Leon-Bilder waren für meine Augen im Allgemeinen näher an der Aufforderung und detaillierter, wobei die Beschilderung das offensichtlichste Beispiel war. (Bis vor kurzem konnten Diffusionsmodelle sowohl mit Text als auch mit der menschlichen Anatomie relativ schlecht umgehen.)
CM3Leon kann auch Anweisungen zum Bearbeiten vorhandener Bilder verstehen. Wenn beispielsweise die Eingabeaufforderung „Erzeugen Sie ein qualitativ hochwertiges Bild von ‚einem Raum, in dem sich ein Waschbecken und ein Spiegel befinden‘ mit einer Flasche an der Position (199, 130)“ ausgegeben wird, kann das Modell etwas visuell Kohärentes erzeugen und, wie Meta es ausdrückt, „kontextgerecht“ – Zimmer, Waschbecken, Spiegel, Flasche und alles. DALL-E 2 geht überhaupt nicht auf die Nuancen solcher Eingabeaufforderungen ein und lässt die in der Eingabeaufforderung angegebenen Objekte teilweise vollständig weg.
Und natürlich kann CM3Leon im Gegensatz zu DALL-E 2 einer Reihe von Eingabeaufforderungen folgen, um kurze oder lange Bildunterschriften zu generieren und Fragen zu einem bestimmten Bild zu beantworten. In diesen Bereichen schnitt das Modell sogar besser ab als spezialisierte Bildunterschriftenmodelle (z. B. Flamingo, OpenFlamingo), obwohl in seinen Trainingsdaten weniger Text enthalten war, behauptet Meta.
Aber was ist mit Voreingenommenheit? Es wurde festgestellt, dass generative KI-Modelle wie DALL-E 2 gesellschaftliche Vorurteile verstärken, da sie schließlich Bilder von Autoritätspositionen – wie „CEO“ oder „Direktor“ – erzeugen, die überwiegend weiße Männer darstellen. Meta lässt diese Frage unberücksichtigt und sagt nur, dass CM3Leon „alle in den Trainingsdaten vorhandenen Verzerrungen widerspiegeln kann“.
„Während sich die KI-Branche weiterentwickelt, werden generative Modelle wie CM3Leon immer ausgefeilter“, schreibt das Unternehmen. „Während sich die Branche noch in einem frühen Stadium des Verständnisses und der Bewältigung dieser Herausforderungen befindet, glauben wir, dass Transparenz der Schlüssel zur Beschleunigung des Fortschritts sein wird.“
Meta hat nicht gesagt, ob und wann die Veröffentlichung von CM3Leon geplant ist. Angesichts der Kontroversen rund um Open-Source-Kunstgeneratoren würde ich nicht den Atem anhalten.