Voice.ai sammelt 6 Millionen US-Dollar, da sein Echtzeit-Sprachwechsler 500.000 Benutzer erreicht

Dienste wie Midjourney und ChatGPT haben die Grenzen der Art und Weise, wie KI Bilder und Text aus einfachen Textaufforderungen erstellen kann, erweitert. Nun scheint Audio die unvermeidliche nächste Grenze zu sein. Musikgenerierung auf Basis von Wortaufforderungen, KI-Tutoren zum Sprachenlernen und Stimmsimulatoren haben in den letzten Monaten Entwicklungen erlebt. Voice.ai hofft, Teil dieser Diskussion (heh) mit einer Technologie zu sein, die es Benutzern ermöglicht, ihre Stimmen in Echtzeit zu ändern (und zu verschleiern), und jetzt hat das Unternehmen im Anschluss an das frühe Wachstum seine erste externe Finanzierung eingeworben.

Mit mehr als 480.000 Benutzern und einer Bibliothek mit mehr als 50.000 Sprachfiltern hat Voice.ai 6 Millionen US-Dollar eingesammelt, die das Unternehmen nutzen will, um seine Sprachänderungstechnologie an neue Orte zu bringen.

Mucker Capital und M13 führen die Runde an. Bisher ist Voice.ai durch Mundpropaganda gewachsen – das Startup verfügt über einen Discord-Kanal mit mehr als 120.000 Menschen – dank einer Eigenfinanzierung von 3 Millionen US-Dollar.

Derzeit werden die Tools des Unternehmens – verfügbar als Apps für Mac, PC, Android und iOS – von Gamern, Content-Erstellern, Vtubers und anderen auf TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends und Among Us übernommen , Skype, WhatsApp und andere Plattformen. Über die Voice.ai-Schnittstelle können sie eine neue Stimme erstellen oder aus rund 50.000 verschiedenen vorgefertigten Stimmen (von Benutzern wie ihnen selbst erstellt und geteilt) auswählen, die unverändert oder geändert verwendet werden können, um sie live auf unterstützten Plattformen zu verwenden oder für Aufnahmen.

Der Plan besteht darin, die Mittel zu nutzen, um mehr technische Talente einzustellen und neue SDKs und APIs zu entwickeln, um mit weiteren Plattformen wie Meta, Unreal und Unity zu arbeiten; mehrsprachige Unterstützung bereitstellen; und fügen Sie neue Anwendungen wie Singen hinzu, bei denen die Stimme im Mittelpunkt steht.

Das Startup hebt es nicht hervor, aber es wird interessant sein zu sehen, ob es einen Teil der Mittel auch für die Erhöhung der Serverkapazität verwendet.

Das ist keine geringe Belastung. Anekdotisch haben wir gehört, dass GPU-Probleme derzeit einer der größten Faktoren für die Skalierung vieler KI-Apps sind. (Das ist zum Teil der Grund dafür, dass große Geschäfte gemacht werden, die auch die strategische Bereitstellung von Verarbeitungs- und Serverkapazität umfassen.)

Speziell bei Voice.ai wird Ihre Stimme lokal verarbeitet und über ein „virtuelles Audiokabel“, das Gründer und CEO Heath Ahrens mir gegenüber beschrieben hat, an den Ort weitergeleitet, an dem sie verwendet werden soll. Aber wenn man sich die Bewertungen seiner Apps anschaut, beklagt man sich häufig darüber, dass man bei der Anmeldung auf eine Warteliste gesetzt wird, weil „unsere Server aufgrund der überwältigenden Nachfrage voll ausgelastet sind“, mit dem Versprechen, dass man informiert wird, wenn der Dienst diese Kapazität erhöht Kapazität.

Heutzutage gibt es Dutzende von Speech-to-Voice- und Voice-to-Speech-Diensten auf dem Markt, und unter ihnen ist bereits viel los: Letztes Jahr hat Spotify Sonantic übernommen und Snap hat noch früher einen KI-Sprachassistenten gekauft; Ein weiteres Startup, Sanas, arbeitet daran, Ihren Akzent zu ändern, und es gibt neben vielen anderen die Sprachsimulatoren Murf und Acapela. Voice.ai zählt sich zur gleichen allgemeinen Kategorie wie Respeecher und ElevenLabs, zwei Voice-to-Voice-KI-Startups, die es Benutzern ermöglichen, Masken anzuwenden, um ihre Stimmen zu optimieren oder vollständig umzuwandeln – in einigen Fällen sogar die Erzeugung vollständig synthetischer Stimmen anstelle der echten.

RednerDas in der Ukraine gegründete und ansässige Unternehmen machte sich einen Namen, indem es dabei half, eine neue Darth Vader-Stimme für neue Star Wars-Folgen zu entwickeln, basierend auf dem Klang von James Earl Jones vor 45 Jahren, als er die Rolle ins Leben rief. (Im Einklang mit einem Charakter, der unbedingt darauf aus ist, Welten zu zerstören, Darths Stimme wurde übermittelt an den Hollywood-Kunden aus seinen Büros in der Ukraine, als Russland in das Land einmarschierte.)

ElevenLabs – berühmt (oder berüchtigt). je nachdem) – hat eine Plattform aufgebaut, die erschreckend gut darin ist, Stimmen zu klonen, und hat Anfang dieses Monats seine jüngste Finanzierungsrunde in Höhe von 19 Millionen US-Dollar von einer Gruppe namhafter Investoren erhalten.

Voice.ai versucht in dieser Mischung, sich als KI-App zur Sprachmodifizierung für Everyman zu positionieren.

„Es gibt viele Unternehmen, die versuchen, Unternehmen eine andere Variante der Sprachtechnologie anzubieten“, sagte Ahrens in einer E-Mail zu Tech (ironischerweise war es nicht möglich, ein Live-Interview mit ihm zu vereinbaren). Ahrens hat einige Erfahrung mit dem Aufbau von B2B-KI-Technologie: Seine beiden früheren Unternehmen – iSpeech für Text-to-Speech und Haystack für Gesichtserkennung – basieren auf API-Angeboten.

„Was Voice.ai auszeichnet, ist, dass wir uns darauf konzentrieren, Technologie, die bisher großen Unternehmen vorbehalten war, auf erschwingliche Weise direkt in die Hände der Verbraucher zu bringen.“ Viele Nutzer, so bemerkte er, „kommen aus der Klassik zu uns DSP Sprachwechsler und Sprachmodulatoren, die sie in der Vergangenheit verwendet hatten und die bei vielen Gamern und Streamern immer noch beliebt sind.“

„Erschwinglich“ gibt es in zwei Stufen: Die meisten Benutzer nutzen jetzt einen kostenlosen Dienst, bei dem sie sich für die Bereitstellung von Rechenleistung zum Trainieren der Modelle von Voice.ai entscheiden müssen. Der Dienst basiert auf einem eigenen privaten Datensatz, der aus „Millionen einzigartiger Benutzer“ besteht .“ Auf der Website werden keine Preise angegeben. Wir bitten um diese Angaben.

„Wir glauben daran, Technologie zugänglich zu machen und planen, mit der Open-Source-Community zusammenzuarbeiten, um die Voice-AI-Technologie zu demokratisieren“, fügte Ahrens hinzu.

Voice.ai behauptet auch, dass es einen grundlegend anderen Ansatz für die Herausforderung, eine Stimme zu verändern, verfolgt und dabei auf einige der Ethos zurückgreift, die rund um die Verwendung von Avataren durch Vtuber, Gamer und andere im Internet entstanden sind.

„Die meisten Sprach-KI-Unternehmen, die in diesen Bereich einsteigen, versuchen, skalierbare, unternehmensorientierte Text-to-Speech-Lösungen oder teure Voice-to-Voice-Dienste für Produktionsstudios zu entwickeln“, sagte Ahrens. „Wir gehen vom gegenteiligen Spektrum aus und versuchen, denjenigen einen Mehrwert zu bieten, die ihren Online-Sound erweitern möchten. Das Kernwertversprechen unserer Speech-to-Speech-KI besteht nicht darin, dass sie jede beliebige Person perfekt nachbilden kann. Es behält die Kernelemente der Sprache eines Benutzers bei: Emotionen, Tempo und Betonung und ersetzt gleichzeitig den Klang der Stimme, um in Echtzeit ein völlig einzigartiges neues Endergebnis zu erzielen.“

Vielleicht liegt es daran, dass die Demografie auf interaktiven Plattformen wie Gaming uneinheitlich ist, aber derzeit besteht das Publikum von Voice.ai zu 70 % aus Männern und zu 30 % aus Frauen, wobei sich neue Kategorien nicht nur darum drehen, wer die Technologie nutzt, sondern auch warum.

Dazu gehören nicht nur diejenigen, die Avatare verwenden und Stimmen aufbauen, die zu ihnen passen, oder diejenigen, die mehr Privatsphäre suchen, sondern auch, sagte er, „Transgender-Benutzer, die sich mit Stimmen darstellen können, die zu ihrer Identität passen, sowie Benutzer, die online völlig neue Dinge erkunden.“ Personas für sich.“

Es gibt bereits eine Basis von Benutzern, die die Direct-to-Consumer-Angebote von Voice.ai nutzen, aber einer der Gründe, warum Mucker in das Startup investiert, ist, dass es glaubt, dass es eine Möglichkeit gibt, ein Netzwerk von Entwicklern aufzubauen, die es nutzen und integrieren seine Technik.

„Voice.ai ist bereit, die KI-Entwickler-Community auf eine Art und Weise zu revolutionieren, die dem Einfluss von AdMob auf die Entwickler-Community mobiler Apps ähnelt“, sagte Omar Hamoui, Partner beim Hauptinvestor Mucker Capital. (Hamoui gründete zuvor das mobile Werbe-Startup AdMob, das schließlich von Google übernommen wurde, sodass er über einige direkte Erfahrung in der Entwicklung mobiler Entwicklertools verfügt.) „Durch das Angebot benutzerfreundlicher Lösungen, die einst nur großen Unternehmen vorbehalten waren, zielt Voice.ai darauf ab, den Zugriff für zu demokratisieren Entwickler weltweit.“

Karl Alomar, der ehemalige COO von Digital Ocean, der die Investition für M13 leitete, sagte, dass Investoren in der nächsten Entwicklungsphase eine aktive Rolle übernehmen werden. „Auch bei Digital Ocean haben wir den Wert des Aufbaus einer Gemeinschaft von Bauherren durch Bauherren erkannt“, sagte er. „Wir freuen uns, dass Schöpfer und Entwickler auf der Voice.ai-Plattform aufbauen.“

tch-1-tech