Endlich ist DALL-E 2, das bilderzeugende KI-System von OpenAI, als API verfügbar, was bedeutet, dass Entwickler das System in ihre Apps, Websites und Dienste einbauen können. In einem Blog-Beitrag gab OpenAI heute bekannt, dass jeder Entwickler beginnen kann, die Leistungsfähigkeit von DALL-E 2 zu nutzen – das mehr als drei Millionen Menschen verwenden, um täglich über vier Millionen Bilder zu produzieren – sobald sie als Teil davon ein OpenAI-API-Konto erstellen die öffentliche Beta.
Die Preise für die DALL-E 2 API variieren je nach Auflösung. Für 1024×1024 Bilder betragen die Kosten 0,02 $ pro Bild; 512×512 Bilder kosten 0,018 $ pro Bild; und 256×256 Bilder kosten 0,016 $ pro Bild. Mengenrabatte stehen Unternehmen zur Verfügung, die mit dem Enterprise-Team von OpenAI zusammenarbeiten.
Wie bei der Beta-Version von DALL-E 2 ermöglicht die API den Benutzern, neue Bilder aus Texteingabeaufforderungen (z. B. „ein flauschiger Hase, der durch ein Blumenfeld hüpft“) zu generieren oder vorhandene Bilder zu bearbeiten. Microsoft, ein enger OpenAI-Partner, nutzt es in Bing und Microsoft Edge mit seinem Image Creator-Tool, mit dem Benutzer Bilder erstellen können, wenn Webergebnisse nicht das liefern, wonach sie suchen. Die Modedesign-App CALA verwendet die DALL-E 2-API für ein Tool, mit dem Kunden Designideen aus Textbeschreibungen oder Bildern verfeinern können, während das Foto-Startup Mixtiles es für seine Benutzer in einen Fluss zur Gestaltung von Kunstwerken bringt.
In Bezug auf die Richtlinien ändert sich mit dem API-Start nicht viel, was diejenigen enttäuschen dürfte, die befürchten, dass generative KI-Systeme wie DALL-E 2 ohne ausreichende Berücksichtigung der ethischen und rechtlichen Probleme, die sie aufwerfen, veröffentlicht werden. Wie zuvor sind Benutzer an die Nutzungsbedingungen von OpenAI gebunden, die die Verwendung von DALL-E 2 zur Erzeugung von offenkundig gewalttätigen, sexuellen oder hasserfüllten Inhalten verbieten. OpenAI hindert Benutzer auch weiterhin daran, Bilder von Personen ohne ihre Zustimmung oder Bilder hochzuladen, für die sie keine Rechte haben, und setzt eine Mischung aus automatisierten und menschlichen Überwachungssystemen ein, um dies durchzusetzen.
Eine kleine Änderung besteht darin, dass mit der API generierte Bilder kein Wasserzeichen enthalten müssen. OpenAI hat Wasserzeichen während der DALL-E 2 Beta eingeführt, um anzuzeigen, welche Bilder aus dem System stammen, hat sich jedoch dafür entschieden, es mit dem Start der API optional zu machen.
„Wir ermutigen Entwickler, offenzulegen, dass Bilder KI-generiert sind, verlangen aber nicht, dass sie die DALL-E 2-Signatur enthalten“, sagte Luke Miller, der Produktmanager bei OpenAI, der die Entwicklung von DALL-E 2 überwacht, per E-Mail an Tech.
OpenAI verwendet auch Filter auf Eingabeaufforderungs- und Bildebene mit DALL-E 2, obwohl es sich um Filter handelt, über die sich einige Kunden beschwert haben übereifrig und ungenau. Und das Unternehmen hat einen Teil seiner Forschungsbemühungen darauf konzentriert, die Arten von Bildern zu diversifizieren, die DALL-E 2 generiert, um die Vorurteile zu bekämpfen, denen Text-zu-Bild-KI-Systeme bekanntermaßen zum Opfer fallen (z. B. die Erzeugung hauptsächlich weißer Bilder). Männer, wenn sie mit Text wie „Beispiele für CEOs“ aufgefordert werden).
Aber diese Schritte haben nicht jeden Kritiker beruhigt. Im August Getty Images verboten das Hochladen und Verkaufen von Illustrationen, die mit DALL-E 2 und anderen derartigen Tools erstellt wurden, nach ähnlichen Entscheidungen von Websites wie Newgrounds, PurplePort und FurAffinity. Craig Peters, CEO von Getty Images, sagte gegenüber The Verge, dass das Verbot durch Bedenken hinsichtlich „unadressierter Rechtsprobleme“ ausgelöst wurde, da die Trainingsdatensätze für Systeme wie DALL-E 2 urheberrechtlich geschützte Bilder enthalten, die aus dem Internet geschabt wurden.
Beim Versuch, einen Mittelweg zu finden, kündigte der Rivale von Getty Images, Shutterstock, kürzlich an, dass er mit der Verwendung von DALL-E 2 zur Generierung von Inhalten beginnen und gleichzeitig einen „Beitragsfonds“ einrichten werde, um Schöpfer zu entschädigen, wenn das Unternehmen Arbeiten zum Trainieren von Text-zu-Bild-KI-Systemen verkauft . Es verbietet auch von Dritten hochgeladene KI-Kunst, um das Potenzial zu minimieren, dass urheberrechtlich geschützte Werke auf die Plattform gelangen.
Die Technologen Mat Dryhurst und Holly Herndon stehen an der Spitze einer so genannten Anstrengung Quelle+ um es Menschen zu ermöglichen, ihre Arbeit oder ihr Abbild nicht für KI-Trainingszwecke zu verwenden. Aber es ist freiwillig. OpenAI hat nicht gesagt, ob es teilnehmen wird – oder ob es jemals ein Self-Service-Tool einführen wird, mit dem Rechteinhaber ihre Arbeit von Schulungen oder der Generierung von Inhalten ausschließen können.
In einem Interview enthüllte Miller nur wenige Einzelheiten zu neuen Abhilfemaßnahmen, abgesehen davon, dass OpenAI seine Techniken verbessert hat, um zu verhindern, dass das System voreingenommene, giftige und anderweitig anstößige Inhalte generiert, die Kunden als anstößig empfinden könnten. Er beschrieb die offene API-Beta als einen „iterativen“ Prozess, der in den nächsten Monaten die Arbeit mit „Benutzern und Künstlern“ beinhalten wird, wenn OpenAI die Infrastruktur skaliert, die DALL-E 2 antreibt.
Wenn die Beta-Version von DALL-E 2 ein Hinweis darauf ist, wird sich das API-Programm sicherlich mit der Zeit weiterentwickeln. Schon früh deaktivierte OpenAI die Möglichkeit, die Gesichter von Personen mit DALL-E 2 zu bearbeiten, aktivierte die Funktion jedoch später, nachdem Verbesserungen an seinem Sicherheitssystem vorgenommen wurden.
„Wir haben viel an dieser Seite der Dinge gearbeitet – sowohl durch die Bilder, die Sie hochladen, als auch durch die Eingabeaufforderungen, die Sie senden, bis hin zur Anpassung an unsere Inhaltsrichtlinie und zum Einbacken verschiedener Gegenmaßnahmen, um auf der Eingabeaufforderungsebene und bei zu filtern die Bildebene, um sicherzustellen, dass sie mit unserer Inhaltsrichtlinie übereinstimmt. Wenn also zum Beispiel jemand ein Bild hochladen würde, das Hasssymbole oder Blut enthält – wie sehr, sehr, sehr gewalttätige Inhalte –, würde das abgelehnt werden“, sagte Miller. „Wir denken immer darüber nach, wie wir das System verbessern können.“
Aber während OpenAI bestrebt zu sein scheint, die Kontroverse um Stable Diffusion zu vermeiden, das Open-Source-Äquivalent von DALL-E 2, das zum Erstellen von Porno-, Gore- und Promi-Deepfakes verwendet wurde, überlässt es den API-Benutzern, genau zu wählen, wie und wo sie eingesetzt werden sollen seine Technologie. Einige, wie Microsoft, werden zweifellos einen maßvollen Ansatz verfolgen und DALL-E 2-basierte Produkte langsam einführen, um Feedback zu sammeln. Andere werden kopfüber tauchen und sowohl die Technologie als auch die Technologie umarmen Ethische Dilemmata die damit einhergehen.
Wenn eines sicher ist, dann dass es einen Nachholbedarf an generativer KI gibt – verdammt noch mal die Folgen. Noch bevor die API offiziell verfügbar war, veröffentlichten Entwickler Problemumgehungen, um DALL-E 2 in Apps, Dienste, Websites und sogar zu integrieren Videospiele. Mit dem öffentlichen Beta-Start, der von OpenAIs beeindruckender Marketingstärke vorangetrieben wird, sind synthetische Bilder bereit, wirklich in den Mainstream einzutreten.