ElfLabsdie virale KI-gestützte Plattform zur Erstellung synthetischer Stimmen, hat heute ihre Plattform aus der Betaversion mit Unterstützung für mehr als 30 Sprachen herausgebracht.
Mithilfe eines neuen, intern entwickelten KI-Modells sind die Tools von ElevenLabs nun in der Lage, automatisch Sprachen wie Koreanisch, Niederländisch und Vietnamesisch zu identifizieren und „emotionsreiche“ Sprache in diesen Sprachen zu erzeugen.
In Kombination mit dem neuen Modell können ElevenLabs-Kunden das Voice-Cloning-Tool der Plattform nutzen, um in den fast 30 Sprachen zu sprechen, ohne zuerst Text eingeben zu müssen.
„ElevenLabs wurde mit dem Traum gegründet, alle Inhalte in jeder Sprache und mit jeder Stimme allgemein zugänglich zu machen“, sagte Mati Staniszewski, CEO und Mitbegründer von ElevenLabs, in einer Erklärung. „Mit dieser Veröffentlichung kommen wir der Verwirklichung dieses Traums einen Schritt näher und machen KI-Stimmen in menschlicher Qualität in jedem Dialekt verfügbar. Unsere Tools zur Text-zu-Sprache-Generierung tragen dazu bei, gleiche Wettbewerbsbedingungen zu schaffen und allen Kreativen erstklassige gesprochene Audiofunktionen zur Verfügung zu stellen.“
ElevenLabs wurde von Staniszewski, der zuvor bei Palantir arbeitete, und seinem Jugendfreund Piotr Dabkowski, einem ehemaligen Google-Mitarbeiter, gegründet und hat in den letzten Monaten aus beiden Gründen für Schlagzeilen gesorgt Gut Und abscheulich. Inspiriert durch die mittelmäßige Synchronisation amerikanischer Filme, die Staniszewski und Dabkowski in ihrer Kindheit in Polen gesehen hatten, machten sich die beiden daran, eine Plattform zu entwickeln, die es besser machen könnte – natürlich unter Einsatz von KI.
ElevenLabs startete Ende Januar in der Beta-Phase und nahm dank der hohen Qualität der generierten Stimmen und des großzügigen kostenlosen Kontingents ziemlich schnell Fahrt auf. Aber wie bereits erwähnt, war die Publizität nicht durchweg positiv – insbesondere, als schlechte Akteure die Plattform für ihre eigenen Zwecke ausnutzten.
Das berüchtigte Message Board 4chan, bekannt für seine verschwörerischen Inhalte, gebraucht Die Tools von ElevenLabs zum Teilen hasserfüllter Nachrichten, die Prominente wie die Schauspielerin Emma Watson nachahmen. An anderer Stelle konnte James Vincent von The Verge auf ElevenLabs tippen, um die Stimmen der Zielpersonen in Sekundenschnelle zu klonen. Erstellen Audiobeispiele, die alles von Gewaltandrohungen bis hin zu Äußerungen von Rassismus und Transphobie enthalten.
Als Reaktion darauf kündigte ElevenLabs an, eine Reihe neuer Schutzmaßnahmen einzuführen, etwa das Klonen von Stimmen auf kostenpflichtige Konten zu beschränken und ein neues KI-Erkennungstool bereitzustellen.
ElevenLabs muss sich jedoch noch mit der anderen Kontroverse auseinandersetzen, die sich rund um seine Plattform und ähnliche Plattformen zusammenbraut: ihre Bedrohung für die Synchronsprecherbranche.
Hauptplatine schreibt darüber, wie Synchronsprecher zunehmend aufgefordert werden, die Rechte an ihren Stimmen abzugeben, damit Kunden mithilfe von KI synthetische Versionen erzeugen können, die sie letztendlich ersetzen könnten. Inzwischen interne E-Mails gesehen von der New York Times weisen darauf hin, dass Activision Blizzard, einer der größten Spielehersteller der Welt, an Tools für KI-gestütztes „Stimmenklonen“ arbeitet.
Es scheint, dass ElevenLabs dies als einen natürlichen Fortschritt der Dinge betrachtet und seine Zusammenarbeit mit Verlagen wie Storytel anpreist; Medienplattformen wie TheSoul Publishing und MNTN für Hörbücher und Radioinhalte; und Verlage wie Embark Studios und Paradox Interactive für Videospiele (Storytel und TheSoul Publishing sind strategische Investoren). Das Unternehmen gibt an, über eine Million registrierte Benutzer in den Bereichen Kreativ, Unterhaltung und Verlagswesen zu haben, die im Wert von zehn Jahren Inhalte erstellt haben Audioinhalte.
ElevenLabs, das kürzlich 19 Millionen US-Dollar von Investoren wie Andreessen Horowitz und DeepMind-Mitbegründer Mustafa Suleyman zu einem Wert von 99 US-Dollar eingesammelt hat, plant, seine KI-Modelle schließlich auf Sprachsynchronisation auszuweiten – und damit in die Fußstapfen von Startups wie Papercup und Deepdub zu treten und das aufzubauen, was es nennt „eine Grundlage, um Emotionen und Intonation von einer Sprache in eine andere übertragen zu können.“
Darüber hinaus sagt ElevenLabs es plant die Einführung eines Mechanismus, der es Benutzern ermöglicht, Stimmen auf der Plattform zu teilen, obwohl die Details noch unklar sind.