Stability AI, das Startup hinter dem KI-gestützten Kunstgenerator Stable Diffusion, hat ein offenes KI-Modell zur Generierung von Klängen und Liedern veröffentlicht, das nach eigenen Angaben ausschließlich anhand lizenzfreier Aufnahmen trainiert wurde.
Das generative Modell mit dem Namen „Stable Audio Open“, das mit rund 486.000 Samples aus den kostenlosen Musikbibliotheken FreeSound und dem Free Music Archive trainiert wurde, nimmt eine Textbeschreibung (z. B. „Rockbeat in einem behandelten Studio, Session-Drumming auf einem Akustik-Kit“) und gibt eine Aufnahme mit einer Länge von bis zu 47 Sekunden aus.
Laut Stability AI können mit dem Modell Drumbeats, Instrumentenriffs, Umgebungsgeräusche und „Produktionselemente“ für Videos, Filme und Fernsehsendungen erstellt sowie vorhandene Songs „bearbeitet“ oder der Stil eines Songs (z. B. Smooth Jazz) auf einen anderen angewendet werden.
„Ein wesentlicher Vorteil dieser Open-Source-Version ist, dass Benutzer das Modell anhand ihrer eigenen benutzerdefinierten Audiodaten optimieren können“, schreibt Stability AI in einem Beitrag auf seinem Unternehmensblog. „Beispielsweise könnte ein Schlagzeuger Samples seiner eigenen Schlagzeugaufnahmen optimieren, um neue Beats zu erzeugen.“
Stable Audio Open hat jedoch seine Grenzen. Es kann keine vollständigen Lieder, Melodien oder Gesang produzieren – zumindest keine guten. Stable AI sagt, dass es dafür nicht optimiert ist, und schlägt vor, dass Benutzer, die nach diese Entscheiden Sie sich für den Premium-Service „Stable Audio“ des Unternehmens.
Stable Audio Open kann außerdem nicht kommerziell genutzt werden; die Nutzungsbedingungen verbieten dies. Außerdem funktioniert es nicht in allen Musikstilen und Kulturen gleich gut und auch bei Beschreibungen in anderen Sprachen als Englisch ist die Leistung nicht gleich – für diese Verzerrungen macht Stable AI die Trainingsdaten verantwortlich.
„Der Datenquelle mangelt es möglicherweise an Diversität und nicht alle Kulturen sind im Datensatz gleichermaßen vertreten“, schreibt Stability AI in einer Beschreibung des Modells. „Die vom Modell generierten Stichproben spiegeln die Verzerrungen der Trainingsdaten wider.“
Stability AI – das seit langem darum kämpft, sein schwächelndes Geschäft wieder in Schwung zu bringen – wurde kürzlich zum Gegenstand kontroverser Diskussionen, nachdem sein Vizepräsident für generatives Audio, Ed Newton-Rextrat zurück, weil er mit der Haltung des Unternehmens nicht einverstanden war, dass das Trainieren generativer KI-Modelle an urheberrechtlich geschützten Werken „faire Nutzung“ darstellt. Stable Audio Open scheint ein Versuch zu sein, diese Darstellung umzudrehen – während es gleichzeitig nicht gerade subtil für die kostenpflichtigen Produkte von Stability AI wirbt.