OpenAI führt DALL-E 3 API ein, neue Text-to-Speech-Modelle

OpenAI fuehrt DALL E 3 API ein neue Text to Speech Modelle

OpenAI hat an seinem allerersten Entwicklertag eine Reihe neuer APIs eingeführt.

DALL-E 3, das Text-zu-Bild-Modell von OpenAI, ist jetzt über eine API verfügbar, nachdem es zuerst bei ChatGPT und Bing Chat verfügbar war. Ähnlich wie bei der Vorgängerversion von DALL-E (z. B. DALL-E 2) verfügt die API laut OpenAI über eine integrierte Moderation zum Schutz vor Missbrauch.

Die DALL-E 3 API bietet verschiedene Format- und Qualitätsoptionen sowie Auflösungen von 1024×1024 bis 1792×1024, wobei die Preise bei 0,04 $ pro generiertem Bild beginnen. Im Vergleich zur DALL-E 2-API ist sie jedoch etwas eingeschränkt – zumindest derzeit.

Im Gegensatz zur DALL-E 2-API kann DALL-E 3 nicht zum Erstellen bearbeiteter Versionen von Bildern verwendet werden, indem das Modell einige Bereiche eines bereits vorhandenen Bilds ersetzt oder Variationen eines vorhandenen Bilds erstellt. Und wenn eine Generierungsanfrage an DALL-E 3 gesendet wird, gibt OpenAI an, dass sie „aus Sicherheitsgründen“ und „um mehr Details hinzuzufügen“ automatisch neu geschrieben wird – was je nach Eingabeaufforderung zu ungenaueren Ergebnissen führen könnte.

An anderer Stelle stellt OpenAI jetzt eine Text-to-Speech-API, die Audio-API, bereit, die sechs voreingestellte Stimmen – Alloy, Echo, Fable, Onyx, Nova und Shimer – zur Auswahl sowie zwei generative KI-Modellvarianten bietet. Ab heute ist es live, die Preise beginnen bei 0,015 $ pro 1.000 eingegebenen Zeichen.

„Das ist viel natürlicher als alles andere, was wir da draußen gehört haben, was die Interaktion mit Apps natürlicher und zugänglicher machen kann“, sagte OpenAI Sam Altman auf der Bühne. „Es erschließt auch viele Anwendungsfälle wie das Erlernen von Sprachen und die Sprachunterstützung.“

Im Gegensatz zu einigen Sprachsyntheseplattformen und -tools bietet OpenAI keine Möglichkeit, die emotionale Wirkung des erzeugten Audios zu steuern. Im Dokumentation Für die Audio-API stellt das Unternehmen fest, dass „bestimmte Faktoren“ den Klang generierter Stimmen beeinflussen können, wie etwa Groß- und Kleinschreibung oder Grammatik in vorgelesenem Text, dass die internen Tests von OpenAI diesbezüglich jedoch „gemischte Ergebnisse“ erbracht haben.

OpenAI verlangt von Entwicklern, die Benutzer darüber informieren, dass Audio von KI generiert wird.

In einer entsprechenden Ankündigung stellte OpenAI die nächste Version seines Open-Source-Modells zur automatischen Spracherkennung vor. Whisper Large-v3, das nach Angaben des Unternehmens eine verbesserte Leistung in allen Sprachen bietet. Es ist auf GitHub verfügbar und steht unter einer freizügigen Lizenz.

tch-1-tech