Im Anschluss an eine Reihe von Kontroversen technische Probleme Und LizenzänderungenDas KI-Startup Stability AI hat seine neueste Familie von Bilderzeugungsmodellen angekündigt.
Die neue Stable Diffusion 3.5-Serie sei anpassbarer und vielseitiger als die Technologie der vorherigen Generation von Stability, behauptet das Unternehmen – und außerdem leistungsfähiger. Insgesamt gibt es drei Modelle:
- Stabile Diffusion 3,5 groß: Mit 8 Milliarden Parametern ist es das leistungsstärkste Modell und kann Bilder mit Auflösungen von bis zu 1 Megapixel erzeugen. (Parameter entsprechen in etwa den Problemlösungsfähigkeiten eines Modells, und Modelle mit mehr Parametern schneiden im Allgemeinen besser ab als solche mit weniger.)
- Stabile Diffusion 3,5 großer Turbo: Eine destillierte Version von Stable Diffusion 3.5 Large, die Bilder schneller generiert, allerdings auf Kosten der Qualität.
- Stabiles Diffusionsmedium 3,5: Ein Modell, das für den Betrieb auf Edge-Geräten wie Smartphones und Laptops optimiert ist und Bilder mit einer Auflösung von 0,25 bis 2 Megapixel erzeugen kann.
Während Stable Diffusion 3.5 Large und 3.5 Large Turbo heute verfügbar sind, wird 3.5 Medium erst am 29. Oktober veröffentlicht.
Stability sagt, dass die Stable Diffusion 3.5-Modelle „vielfältigere“ Ausgaben erzeugen sollten – das heißt Bilder, die Menschen mit unterschiedlichen Hauttönen und Gesichtszügen darstellen – ohne dass „umfangreiche“ Eingabeaufforderungen erforderlich sind.
„Während des Trainings wird jedes Bild mit mehreren Versionen von Eingabeaufforderungen beschriftet, wobei kürzere Eingabeaufforderungen Vorrang haben“, sagte Hanno Basse, Chief Technology Officer von Stability, gegenüber Tech in einem Interview. „Dies gewährleistet eine breitere und vielfältigere Verbreitung von Bildkonzepten für jede Textbeschreibung. Wie die meisten generativen KI-Unternehmen trainieren wir auf der Grundlage einer Vielzahl von Daten, einschließlich gefilterter öffentlich verfügbarer Datensätze und synthetischer Daten.“
Einige Unternehmen haben in der Vergangenheit solche „diversifizierenden“ Funktionen unbeholfen in Bildgeneratoren eingebaut. was zu Aufschreien führt in den sozialen Medien. Eine ältere Version des Gemini-Chatbots von Google würde beispielsweise eine anachronistische Figurengruppe für historische Themen wie „eine römische Legion“ oder „US-Senatoren“ anzeigen. Google war gezwungen, die Generierung von Personenbildern fast sechs Monate lang zu unterbrechen, während eine Lösung entwickelt wurde.
Mit etwas Glück wird der Ansatz von Stability durchdachter sein als der anderer. Leider können wir keine Eindrücke vermitteln, da Stability keinen Early Access ermöglicht hat.
Der bisherige Flaggschiff-Bildgenerator von Stability, Stable Diffusion 3 Medium, war heftig kritisiert für seine eigenartigen Artefakte und die schlechte Befolgung von Eingabeaufforderungen. Das Unternehmen warnt davor, dass bei Stable Diffusion 3.5-Modellen ähnliche Eingabeaufforderungsfehler auftreten könnten; es macht technische und architektonische Kompromisse dafür verantwortlich. Stability behauptet aber auch, dass die Modelle robuster als ihre Vorgänger bei der Generierung von Bildern in einer Reihe verschiedener Stile sind, einschließlich 3D-Kunst.
„Es kann zu größeren Abweichungen bei den Ausgaben derselben Eingabeaufforderung mit unterschiedlichen Startwerten kommen, was beabsichtigt ist, da es dazu beiträgt, eine breitere Wissensbasis und unterschiedliche Stile in den Basismodellen zu bewahren“, schrieb Stability in einem Artikel Blogbeitrag geteilt mit Tech. „Infolgedessen können Eingabeaufforderungen, denen es an Spezifität mangelt, jedoch zu einer erhöhten Unsicherheit in der Ausgabe führen, und das ästhetische Niveau kann variieren.“
Eine Sache, die sich bei den neuen Modellen nicht geändert hat, sind die Lizenzen von Stability.
Wie bei früheren Stability-Modellen können die Modelle der Stable Diffusion 3.5-Serie kostenlos für „nichtkommerzielle“ Zwecke, einschließlich Forschung, verwendet werden. Unternehmen mit einem Jahresumsatz von weniger als 1 Million US-Dollar können diese auch kostenlos vermarkten. Organisationen mit einem Umsatz von mehr als 1 Million US-Dollar müssen jedoch einen Vertrag mit Stability für eine Unternehmenslizenz abschließen.
Stabilität verursacht a Aufsehen in diesem Sommer wegen seiner restriktiven Feinabstimmungsbedingungen, die dem Unternehmen das Recht einräumten (oder zumindest zu geben schienen), Gebühren für Modelle zu erheben, die mit Bildern aus seinen Bildgeneratoren trainiert wurden. Als Reaktion auf den Rückschlag hat das Unternehmen angepasst seine Bedingungen, um eine liberalere kommerzielle Nutzung zu ermöglichen. Stability hat heute erneut bestätigt, dass Benutzer Eigentümer der Medien sind, die sie mit Stability-Modellen generieren.
„Wir ermutigen Urheber, ihre Arbeit über die gesamte Pipeline zu verbreiten und zu monetarisieren“, sagte Ana Guillén, Vizepräsidentin für Marketing und Kommunikation bei Stability, in einer E-Mail-Erklärung, „solange sie den Nutzern eine Kopie unserer Community-Lizenz zur Verfügung stellen.“ Kreationen und zeigen Sie „Powered by Stability AI“ prominent auf verwandten Websites, Benutzeroberflächen, Blog-Beiträgen, Info-Seiten oder Produktdokumentationen an.“
Stable Diffusion 3.5 Large und Diffusion 3.5 Large Turbo können selbst gehostet oder über die Stability-API und Plattformen von Drittanbietern wie Hugging Face, Fireworks, Replicate und ComfyUI verwendet werden. Stability plant, in den nächsten Tagen die ControlNets für die Modelle zu veröffentlichen, die eine Feinabstimmung ermöglichen.
Die Modelle von Stability werden, wie die meisten KI-Modelle, auf öffentlichen Webdaten trainiert – von denen einige möglicherweise urheberrechtlich geschützt sind oder einer restriktiven Lizenz unterliegen. Stability und viele andere KI-Anbieter argumentieren, dass die faire Nutzung Die Doktrin schützt sie vor Urheberrechtsansprüchen. Aber das hat Dateneigentümer nicht davon abgehalten aus eine wachsende Zahl von Sammelklagen einreichen.
Stability überlässt es den Kunden, sich gegen Urheberrechtsansprüche zu verteidigen, und sieht im Gegensatz zu einigen anderen Anbietern keine Auszahlungsausschlussmöglichkeit für den Fall vor, dass das Unternehmen haftbar gemacht wird.
Stabilität tut Allerdings können Dateneigentümer beantragen, dass ihre Daten aus ihren Trainingsdatensätzen entfernt werden. Nach Angaben des Unternehmens hatten Künstler bis März 2023 80 Millionen Bilder aus den Trainingsdaten von Stable Diffusion entfernt.
Auf die Frage nach Sicherheitsmaßnahmen im Zusammenhang mit Fehlinformationen im Hinblick auf die bevorstehenden US-Parlamentswahlen sagte Stability, dass es „vernünftige Maßnahmen ergriffen hat und weiterhin ergreifen wird, um den Missbrauch von Stable Diffusion durch schlechte Akteure zu verhindern.“ Das Startup lehnte es jedoch ab, konkrete technische Details zu diesen Schritten zu nennen.
Ab März verbot Stability nur explizit „irreführende“ Inhalte, die mit seinen generativen KI-Tools erstellt wurden – keine Inhalte, die Wahlen beeinflussen oder die Wahlintegrität beeinträchtigen könnten oder in denen Politiker und Persönlichkeiten des öffentlichen Lebens vorkommen.
Tech hat einen KI-fokussierten Newsletter! Melden Sie sich hier an um es jeden Mittwoch in Ihrem Posteingang zu erhalten.