Mit dem Klonen von Stimmen lässt sich viel Geld verdienen.
Ein typisches Beispiel: ElfLabsein Startup, das KI-gestützte Tools zum Erstellen und Bearbeiten synthetischer Stimmen entwickelt, gab heute den Abschluss einer Serie-B-Runde im Wert von 80 Millionen US-Dollar bekannt, die gemeinsam von prominenten Investoren wie Andreessen Horowitz, dem ehemaligen GitHub-CEO Nat Friedman und dem Unternehmer Daniel Gross geleitet wurde.
Die Runde, an der auch Sequoia Capital, Smash Capital, SV Angel, BroadLight Capital und Credo Ventures beteiligt waren, bringt ElevenLabs insgesamt 101 Millionen US-Dollar ein und bewertet das Unternehmen mit über 1 Milliarde US-Dollar (gegenüber etwa 100 Millionen US-Dollar im letzten Juni). CEO Mati Staniszewski sagt, das neue Geld werde in die Produktentwicklung, den Ausbau der Infrastruktur und des Teams von ElevenLabs, die KI-Forschung und „die Verbesserung der Sicherheitsmaßnahmen zur Gewährleistung einer verantwortungsvollen und ethischen Entwicklung der KI-Technologie“ gesteckt.
„Wir haben das neue Geld gesammelt, um die Position von ElevenLabs als globaler Marktführer in der Sprach-KI-Forschung und Produktbereitstellung zu festigen“, sagte Staniszewski gegenüber Tech in einem E-Mail-Interview.
ElevenLabs wurde 2022 von Piotr Dabkowski, einem ehemaligen Google-Ingenieur für maschinelles Lernen, und Staniszewski, einem ehemaligen Palantir-Bereitstellungsstrategen, gegründet und startete vor etwa einem Jahr in der Beta-Phase. Staniszewski sagt, dass er und Dabkowski, der in Polen aufgewachsen ist, von schlecht synchronisierten amerikanischen Filmen inspiriert wurden, Tools zum Klonen von Stimmen zu entwickeln. KI könnte es besser machen, dachten sie.
Heute ist ElevenLabs vielleicht am besten für seine browserbasierte Sprachgenerierungs-App bekannt, die lebensechte Stimmen mit einstellbaren Schaltern für Intonation, Emotion, Kadenz und andere wichtige Stimmmerkmale erzeugen kann. Benutzer können kostenlos Text eingeben und sich eine Aufzeichnung dieses Textes von einer von mehreren Standardstimmen vorlesen lassen. Zahlende Kunden können Sprachproben hochladen, um mithilfe der Sprachklonung von ElevenLabs neue Stile zu erstellen.
ElevenLabs investiert zunehmend in Versionen seiner Sprachgenerierungstechnologie, die auf die Erstellung von Hörbüchern und die Synchronisierung von Filmen und Fernsehsendungen sowie auf die Generierung von Charakterstimmen für Spiele und Marketingaktivitäten abzielen.
Letztes Jahr veröffentlichte das Unternehmen ein „Speech-to-Speech“-Tool, das versucht, die Stimme, Prosodie und Intonation eines Sprechers beizubehalten und gleichzeitig Hintergrundgeräusche automatisch zu entfernen, und – im Fall von Filmen und Fernsehsendungen – Sprache übersetzt und mit dem Ausgangsmaterial synchronisiert. Auf der Roadmap für die kommenden Wochen steht ein neuer Synchronstudio-Workflow mit Tools zum Generieren und Bearbeiten von Transkripten und Übersetzungen sowie einer abonnementbasierten mobilen App, die Webseiten und Texte mit ElevenLabs-Stimmen vorträgt.
Die Innovationen von ElevenLabs haben die Startup-Kunden von Paradox Interactive, dem Spieleentwickler, zu dessen jüngsten Projekten Cities: Skylines 2 und Stellaris gehören, und The Washington Post gewonnen – neben anderen Verlags-, Medien- und Unterhaltungsunternehmen. Staniszewski behauptet, dass ElevenLab-Benutzer das Äquivalent von mehr als 100 Jahren Audio erzeugt haben und dass die Plattform von Mitarbeitern in 41 % der Fortune-500-Unternehmen genutzt wird.
Aber die Werbung war nicht ganz positiv.
Das berüchtigte Message Board 4chan, bekannt für seine verschwörerischen Inhalte, gebraucht Die Tools von ElevenLabs zum Teilen hasserfüllter Nachrichten, die Prominente wie die Schauspielerin Emma Watson nachahmen. James Vincent von The Verge war in der Lage, ElevenLabs anzuzapfen, um innerhalb von Sekunden böswillig Stimmen zu klonen. Erstellen Proben, die alles von Gewaltandrohungen bis hin zu rassistischen und transphoben Äußerungen enthielten. Und drüben bei Vox, Reporter Joseph Cox dokumentiert Generieren eines Klons, der überzeugend genug ist, um das Authentifizierungssystem einer Bank zu täuschen.
Als Reaktion darauf hat ElevenLabs versucht, Benutzer auszumerzen, die wiederholt gegen seine Nutzungsbedingungen verstoßen, die Missbrauch verbieten, und hat ein Tool zur Erkennung von auf seiner Plattform erstellter Sprache eingeführt. In diesem Jahr plant ElevenLabs, das Erkennungstool zu verbessern, um Audio von anderen sprachgenerierenden KI-Modellen zu kennzeichnen, und mit ungenannten „Vertriebsspielern“ zusammenzuarbeiten, um das Tool auf Plattformen von Drittanbietern verfügbar zu machen, sagt Staniszewski.
ElevenLabs wurde auch von Synchronsprechern kritisiert, die behaupten, dass das Unternehmen ohne ihre Zustimmung Proben ihrer Stimmen verwende – Proben, die genutzt werden könnten, um Inhalte zu bewerben, die sie nicht unterstützen, oder um Fehl- und Desinformationen zu verbreiten. In einem jüngste Im Vice-Artikel erzählen Opfer, wie ElevenLabs in Belästigungskampagnen gegen sie eingesetzt wurde, in einem Beispiel, um die privaten Informationen eines Schauspielers – seine Privatadresse – mithilfe einer geklonten Stimme weiterzugeben.
Dann ist da noch der Elefant im Raum: Plattformen wie ElevenLabs stellen eine existenzielle Bedrohung für die Synchronsprecherbranche dar.
Hauptplatine schreibt darüber, wie Synchronsprecher zunehmend aufgefordert werden, Rechte an ihren Stimmen abzutreten, damit Kunden mithilfe von KI synthetische Versionen erzeugen können, die sie schließlich ersetzen könnten – manchmal ohne entsprechende Vergütung. Es besteht die Befürchtung, dass die Spracharbeit – insbesondere die billige Arbeit auf Einstiegsniveau – irgendwann durch KI-generierten Gesang ersetzt wird und die Schauspieler keine Rückgriffsmöglichkeiten mehr haben werden.
Einige Plattformen versuchen, einen Ausgleich zu schaffen. Anfang dieses Monats unterzeichnete Replica Studios, ein Konkurrent von ElevenLabs, einen Vertrag mit SAG-AFTRA über die Erstellung und Lizenzierung digitaler Repliken der Stimmen der Mitglieder der Medienkünstlergewerkschaft. In einer Pressemitteilung sagten die Organisationen, dass die Vereinbarung „faire“ und „ethische“ Geschäftsbedingungen festlege, um die Zustimmung der Künstler sicherzustellen – und dass Bedingungen für die Nutzung digitaler Sprachdoppel in neuen Werken ausgehandelt würden.
Doch selbst das gefiel einigen Synchronsprechern nicht – darunter auch den von SAG-AFTRA eigene Mitglieder.
Die Lösung von ElevenLabs ist ein Marktplatz für Stimmen. Der Marktplatz befindet sich derzeit in der Alpha-Phase und soll in den nächsten Wochen breiter verfügbar werden. Er ermöglicht es Benutzern, eine Stimme zu erstellen, diese zu überprüfen und zu teilen. Wenn andere eine Stimme nutzen, erhalten die ursprünglichen Urheber eine Entschädigung, sagt Staniszewski.
„Benutzer behalten stets die Kontrolle über die Verfügbarkeit und Vergütungsbedingungen ihrer Stimme“, fügte er hinzu. „Der Marktplatz soll ein Schritt zur Harmonisierung von KI-Fortschritten mit etablierten Branchenpraktiken sein und gleichzeitig vielfältige Stimmen auf die Plattform von ElevenLabs bringen.“
Synchronsprecher könnten jedoch ein Problem damit haben, dass ElevenLabs nicht in bar zahlt – zumindest derzeit nicht. Das aktuelle Setup sieht vor, dass YouTuber Gutschriften für die Premium-Dienste von ElevenLabs erhalten (was einige meiner Meinung nach ironisch finden).
Vielleicht wird sich das in Zukunft ändern, wenn ElevenLabs – das mittlerweile zu den am besten finanzierten Start-ups für synthetische Stimme gehört – versucht, aufstrebende Konkurrenten wie Papercup, Deepdub, ElevenLabs, Acapela, Respeecher und Voice.ai sowie etablierte Big-Tech-Unternehmen wie zu schlagen wie Amazon, Microsoft und Google. Auf jeden Fall will ElevenLabs, das seine Mitarbeiterzahl bis Ende des Jahres von 40 auf 100 erhöhen will, im schnell wachsenden Markt für synthetische Sprachübertragung bestehen bleiben – und für Aufsehen sorgen.