Stability AI, das Start-up, das eine Reihe generativer KI-Experimente finanziert, hat eine neue Version von Stable Diffusion veröffentlicht, dem Text-zu-Bild-KI-System, das als eines der ersten mit DALL-E 2 von OpenAI konkurrieren konnte.
Genannt Stabile Diffusion XL oder SDXL, das neue System, das in der Beta-Version über DreamStudio, das generative Kunstwerkzeug von Stability AI, verfügbar ist, verbessert das Original in entscheidender Weise. Tom Mason, CTO von Stability AI, sagt, dass es der Bildgenerierung einen „Reichtum“ verleiht, der dem alten Modell (Stable Diffusion 2.1) fehlte, mit Verbesserungen, die am bemerkenswertesten in Anwendungen wie Grafikdesign und Architektur sind.
„Wir freuen uns, die neueste Iteration unserer Stable Diffusion-Serie von Bildlösungen ankündigen zu können“, sagte er in einer vorgefertigten Erklärung. „[It’s] transformativ in mehreren Branchen … mit den Ergebnissen, die vor unseren Augen stattfinden.“
Abgesehen von der Übertreibung scheint SDXL in der Tat auf Augenhöhe mit – und vielleicht sogar besser als – der neuesten Version von MIdJourneys Modell zu sein, dem Modell, das für „Balenciaga Papst“ (neben anderen Memes).
Während die vorherige Version von Stable Diffusion und viele andere Text-to-Image-Systeme große Schwierigkeiten haben, bestimmte Anatomien wie Hände nachzubilden, hat SDXL keine derartigen Probleme. Die Hände sind nicht immer … naja, realistisch. Aber sie sind dem Albtraumtreibstoff, den der Vorgänger von SDXL oft produzieren würde, meilenweit voraus.
SDXL ist angeblich auch besser darin, Text zu generieren, eine Aufgabe, die historisch generative KI-Kunstmodelle für eine Schleife geworfen hat. Aber es ist noch ein langer Weg, wenn meine kurzen Tests ein Hinweis darauf sind,
In einer Pressemitteilung behauptet Stability AI auch, dass SDXL „verbesserte Bildkomposition und Gesichtsgenerierung“ bietet und im Gegensatz zu seinem Vorgänger keine langen, detaillierten Eingabeaufforderungen erfordert, um „beschreibende Bilder“ zu erstellen. Darüber hinaus verfügt SDXL über Funktionen, die über die reine Text-zu-Bild-Aufforderung hinausgehen, einschließlich Bild-zu-Bild-Aufforderung (Eingabe eines Bildes, um Variationen dieses Bildes zu erhalten), Inpainting (Rekonstruktion fehlender Teile eines Bildes) und Outpainting (Erstellung einer nahtlosen Erweiterung eines bestehenden Images).
Als Platzhalter habe ich versucht, das Balenciaga-Papst-Mem mit einer möglichst kurzen Aufforderung nachzubilden: „Balenciaga-Papst“. Der Unterschied in den Ergebnissen war deutlicher, als ich erwartet hatte, ich muss sagen, dass SDXL Laufstegmodels in etwas posierte, was als Designerkleidung durchgehen könnte, im Gegensatz zu der geradlinig religiös wirkenden Kleidung, die die alte Stable Diffusion heraufbeschwor.
Sobald die Beta-Phase beendet ist, wird SDXL Open Source sein, sagt Stability AI, genau wie die vorherigen Iterationen von Stable Diffusion. Zusätzlich zu DreamStudio ist SDXL derzeit über die API von Stability verfügbar, ebenfalls im Early Access.
Während die generative KI-Kunsttechnologie voranschreitet, haben Tools wie SDXL Unternehmen wegen ihrer Entwicklung und Kommerzialisierung in Schwierigkeiten gebracht. Stabilitäts-KI ist im Fadenkreuz von a Rechtsfall in dem behauptet wird, das Unternehmen habe die Rechte von Millionen von Künstlern verletzt, indem es seine Tools unter Verwendung von webgekratzten, urheberrechtlich geschützten Bildern entwickelt habe. Aktie Auch der Bildlieferant Getty Images hat Stability AI verklagt angeblich die Verwendung von Bildern von seiner Website ohne Erlaubnis, um die ursprüngliche Stable Diffusion zu erstellen.
Die Open-Source-Veröffentlichung von Stable Diffusion ist aufgrund ihrer relativ geringen Nutzungsbeschränkungen ebenfalls Gegenstand von Kontroversen geworden. Einige Communitys im Internet haben es genutzt, um pronografische Deepfakes von Prominenten und grafische Darstellungen von Gewalt zu erstellen. Bisher hat mindestens ein US-Gesetzgeber eine Regulierung gefordert, um die Veröffentlichung von Modellen wie Stable Diffusion anzugehen, die „Inhalte nicht ausreichend moderieren“.
Als Reaktion auf die Klagen hat Stability AI kürzlich zugesagt, die Anfragen von Künstlern zu respektieren, ihre Kunst aus dem Trainingsdatensatz von Stable Diffusion zu entfernen, aber das galt nicht für SDXL – nur die Stable Diffusion-Modelle der nächsten Generation mit dem Codenamen „Stable Diffusion 3.0.“ Laut Spawning, der Organisation, die die Opt-out-Bemühungen leitet, haben Künstler bisher mehr als 78 Millionen Kunstwerke aus dem Trainingsdatensatz entfernt.
Seien Sie verdammt mit rechtlichen Herausforderungen, Stability AI steht unter dem Druck, seine weitläufigen KI-Bemühungen zu monetarisieren, die die Bandbreite von Kunst und Animation bis hin zu biomediertem und generativem Audio abdecken. Emad Mostaque, CEO von Stability AI, hat kürzlich Pläne für einen Börsengang angedeutet, aber Semafor gemeldet dass Stability AI – das im vergangenen Oktober über 100 Millionen US-Dollar an Risikokapital bei einer gemeldeten Bewertung von mehr als 1 Milliarde US-Dollar aufbrachte – „Bargeld verbrennt und nur langsam Einnahmen generiert“