Sprachgenerierungsplattform ElevenLabs sammelt 19 Millionen US-Dollar und führt Erkennungstool ein

Sprachgenerierungsplattform ElevenLabs sammelt 19 Millionen US Dollar und fuehrt Erkennungstool ein

ElfLabsdie virale KI-gestützte Plattform zur Erstellung synthetischer Stimmen, hat eine neue Runde Geld eingesammelt.

Heute gab das Startup den Abschluss einer Serie-A-Runde im Wert von 19 Millionen US-Dollar bekannt, die gemeinsam von den Unternehmern Nat Friedman und Daniel Gross sowie Andreessen Horowitz geleitet wurde. Weitere Teilnehmer waren die Schwergewichte Creator Ventures, SV Angel, Instagram-Mitbegründer Mike Krieger, Oculus-Mitbegründer Brendan Iribe, Deepmind und Inflection AI-Mitbegründer Mustafa Suleyman und O’Reilly Media-Gründer Tim O’Reilly.

Eine mit der Angelegenheit vertraute Quelle teilt Tech mit, dass die Tranche ElevenLabs nach der Finanzierung mit 99 Millionen US-Dollar bewertet – eine respektable Zahl, insbesondere wenn man bedenkt, dass das Startup vor etwas mehr als einem Jahr gegründet wurde.

„Diese Investition wird für den weiteren Bau verwendet ElfLab„Wir wollen das hochmoderne Forschungszentrum für Sprach-KI entwickeln und eine Reihe zusätzlicher Produkte auf den Markt bringen, um bestimmte Marktsegmente wie Verlagswesen, Spiele, Unterhaltung und Konversationsanwendungen zu unterstützen“, sagte Mitbegründer und CEO Mati Staniszewski per E-Mail gegenüber Tech.

ElevenLabs, das in den letzten Monaten aus beiden Gründen für Schlagzeilen gesorgt hat Gut Und abscheulich, wurde von Staniszewski, der zuvor bei Palantir arbeitete, und seinem Jugendfreund Piotr Dabkowski, einem ehemaligen Google-Mitarbeiter, gegründet. Inspiriert von der mittelmäßigen Synchronisation amerikanischer Filme, die sie als Kind in ihrem Heimatland Polen gesehen hatten, machten sich die beiden daran, eine Plattform zu entwickeln, die es besser machen könnte – natürlich mit KI.

ElevenLabs kann Text mithilfe synthetischer Stimmen, geklonter Stimmen oder völlig neuartiger „künstlicher“ Stimmen, die die Geräusche von Menschen unterschiedlichen Geschlechts, Alters und ethnischer Zugehörigkeit nachahmen, in Sprache umwandeln. Die KI-Text-zu-Sprache-Modelle des Unternehmens sind sprachunabhängig, sodass Unternehmenskunden sie verfeinern und darauf aufbauend ihre eigenen, proprietären Sprachmodelle erstellen können.

Zeitgleich mit der Gehaltserhöhung der Serie A startet der 15-köpfige Mitarbeiter von ElevenLabs Projekte, einen Workflow zum Bearbeiten und Erstellen langer gesprochener Inhalte. Mit Projects können Benutzer Dialogsegmente und sogar Hörbücher erstellen, ohne die Plattform verlassen zu müssen.

„Für Business-to-Business-Partner kann unsere Technologie in Bereichen wie der skalierbaren und mehrsprachigen Hörbucherstellung, der Vertonung von Charakteren in Videospielen, der Vertonung digitaler Artikel, der Unterstützung von Sehbehinderten beim Zugriff auf schriftliche Online-Inhalte und der Stromversorgung von KI-Radio eingesetzt werden“, sagt Staniszewski genannt.

ElevenLabs, das Ende Januar in der Betaversion startete, gewann ziemlich schnell an Fahrt – aufgrund der extrem hohen Qualität der generierten Stimmen, der schnellen Generierungszeiten und des großzügigen kostenlosen Kontingents. Aber wie bereits erwähnt, war die Publizität nicht immer positiv – insbesondere, als schlechte Akteure begannen, die Plattform für ihre eigenen Zwecke auszunutzen.

ElevenLabs bietet Tools zum Klonen oder Generieren realistisch klingender Stimmen mithilfe von KI.

4chan, das berüchtigte Message Board, das für seine verschwörerischen Inhalte bekannt ist, gebraucht Das Tool von ElevenLabs zum Teilen hasserfüllter Nachrichten, die Prominente wie die Schauspielerin Emma Watson nachahmen. An anderer Stelle konnte James Vincent von The.Verge auf ElevenLabs tippen, um die Stimmen von Zielen in Sekundenschnelle zu klonen – Erstellen Audiobeispiele, die alles von Gewaltandrohungen bis hin zu Äußerungen von Rassismus und Transphobie enthalten.

Als Reaktion darauf sagte ElevenLabs, dass es eine Reihe neuer Schutzmaßnahmen einführen werde, wie etwa die Beschränkung des Voice-Cloning auf kostenpflichtige Konten, das Sperren von Benutzern, die wiederholt gegen die Nutzungsbedingungen verstoßen, und die Bereitstellung eines neuen KI-Erkennungstools.

Das Erkennungstool wird heute eingeführt. Es heißt AI Speech Classifier und steht „ausgewählten“ Partnern als API zur Verfügung. Es soll erkennen, ob eine hochgeladene Audioprobe KI-generierte Inhalte von ElevenLabs enthält.

„Die sichere Einführung generativer KI-Plattformen ist eine zentrale Herausforderung für den gesamten KI-generierten Sektor, einschließlich Text-, Bild- und Sprachplattformen“, sagte Staniszewski. „Wir müssen sicherstellen, dass die Menschen über die Natur der generativen Medienlandschaft aufgeklärt sind und wissen, dass es solche Inhalte gibt. Im Interesse der Transparenz setzen wir uns dafür ein, Tools zu entwickeln, die den Menschen helfen, KI-generierte Inhalte zu erkennen.“

Ein freiwilliges Erkennungstool – vorausgesetzt, es funktioniert überhaupt wie angekündigt – wird schlechtes Verhalten nicht unbedingt abschrecken. Aber es gibt noch einen weiteren Elefanten im Raum, den ElevenLabs nicht angesprochen hat: die existenzielle Bedrohung, die seine Technologie für Synchronsprecher darstellt.

Hauptplatine schreibt darüber, wie Synchronsprecher zunehmend aufgefordert werden, die Rechte an ihren Stimmen abzutreten, damit Kunden mithilfe von KI synthetische Versionen erzeugen können, die sie schließlich ersetzen könnten – manchmal ohne zusätzliche Vergütung. Interne E-Mails gesehen von der New York Times weisen unterdessen darauf hin, dass Activision Blizzard, einer der größten Spielehersteller der Welt, an Tools für KI-gestütztes „Voice Cloning“ arbeitet.

Es scheint, dass ElevenLabs dies als einen natürlichen Fortschritt der Dinge betrachtet und seine Zusammenarbeit mit Verlagen wie Storytel und Medienplattformen wie TheSoul Publishing und MNTN für Hörbücher, Videospiele und Radioinhalte anpreist. (Storytel und TheSoul Publishing sind strategische Investoren.) Das Unternehmen gibt an, über eine Million registrierte Benutzer in den Bereichen Kreativ, Unterhaltung und Verlagswesen zu haben, die Audioinhalte im Wert von zehn Jahren erstellt haben.

ElevenLabs plant, seine KI-Modelle schließlich auf die Sprachsynchronisation auszuweiten und damit in die Fußstapfen von Startups wie Papercup und Deepdub zu treten und das zu schaffen, was es „eine Grundlage für die Übertragung von Emotionen und Intonation von einer Sprache in eine andere“ nennt.

„Dadurch kann jedes Video auf ansprechende, effektive und skalierbare Weise in jede Sprache synchronisiert werden, während die Stimme des ursprünglichen Sprechers erhalten bleibt“, schreibt ElevenLabs in einer Pressemitteilung. „[We are] Wir führen bereits eine Reihe von Tests mit Industriepartnern durch, um KI-Synchronisation in großem Maßstab zu ermöglichen.“

Mit 21 Millionen US-Dollar auf der Bank (davon 2 Millionen US-Dollar aus einer Pre-Seed-Runde im Januar) ist ElevenLabs – um Himmels willen mit den Konsequenzen – voll und ganz darauf konzentriert, seine Konkurrenten im aufstrebenden Bereich der generativen Stimme zurückzuschlagen. Dazu gehören etablierte Unternehmen wie Amazon, Google und Microsoft sowie Startups wie Murf, Tavus, Resemble AI, Respeecher, Play.ht und Lovo.

tch-1-tech