Podcast-Aufnahme- und Bearbeitungsplattform Podcastle tritt nun anderen Unternehmen im KI-angetriebenen Text-zu-Sprach-Rennen mit, indem er ein eigenes KI-Modell nennt Asyncflow v1.0. Eine API für Entwickler ist ebenfalls verfügbar, sodass sie das Text-zu-Sprach-Modell direkt in ihre Apps integrieren können.
Dank des neuen Modells kann das Unternehmen mehr als 450 KI -Stimmen anbieten, die Ihren Text erzählen können. Das Startup sagte, dass es die Technologie und das Modell so entwickelte, dass seine Schulungs- und Inferenzkosten niedrig sind, was ihm einen Vorteil gegenüber den Wettbewerbern verschafft.
Mit dem Umzug verbindet Podcastle eine Reihe von Startups, darunter Elevenlabs, Speechify und Wellsaid, die Technologie- und KI -Modelle entwickelt haben, um jede Art von Text in einen von AI erzählten Sprachclip umzuwandeln. Diese Technologie umfasst Anwendungsfälle wie Marketing, Werbung, Inhaltsschaffung, Bildung und Unternehmensausbildung.
Der Gründer von Podcastle, Arto Yeritsyan, erklärte gegenüber Tech, dass das Unternehmen schon immer ein Text-zu-Sprach-Modell erstellen wollte, aber die Kosten für Schulungs- und Datenanforderungen dafür waren sehr hoch.
„Wir wollten seit unserer Gründung ein robustes Modell zu Speech-Modell aufbauen. Die Entwicklungskosten waren jedoch sehr hoch. Dank der jüngsten Entwicklungen des großen Sprachmodells konnten wir letztes Jahr einen Durchbruch erzielen, um an einen Ort zu gelangen, an dem wir ein hochwertiges Sprachmodell erstellen konnten, ohne eine Menge Daten zu benötigen “, sagte Yeritsyan.
Das Unternehmen wurde auch bei seinen Bemühungen durch seine Spendenaktie der Serie A in Höhe von 13,5 Millionen US -Dollar im vergangenen Jahr unterstützt.
Yeritsyan sagte, dass Podcastle zwar rund 40 US-Dollar pro 500 Minuten Text-zu-Sprache-Umwandlung berechnet, elfLabs jedoch 99 US-Dollar für dasselbe berechnet.
Die Voice Cloning -Funktion von Podcastle erhält auch ein Upgrade, um einen schnelleren Prozess für das Training zu erstellen.
Zuvor war der Trainingsprozess das Lesen von rund 70 verschiedenen Sätzen. Jetzt braucht es nur ein paar Sekunden von Ihnen, um einen Klon Ihrer Stimme zu erstellen. Der neue Prozess verwendete auch Podcastle’s Magic Dust AI, das letztes Jahr veröffentlicht wurde, um die Qualität der Audioaufnahme zu verbessern.
Bei unseren Tests klang die mit dem neue Prozesse erzeugte Stimme ein bisschen roboter, obwohl sie unseren Ton nachahmte. Das Unternehmen sagte, dass es im Laufe der Zeit die Funktion verbessern wird. Außerdem können Sie verschiedene Proben Ihrer Stimme trainieren, um unterschiedliche Ergebnisse zu erzielen.
Podcastle sagte, dass es abgesehen von den Kosten, Werkzeuge für Audio, Video, Podcasts und KI-angetriebene Erzählung unter einer neu gestalteten Website, einen Vorteil gegenüber den Konkurrenten verleihen wird. Yeritsyan sagte, dass die Mehrheit der Benutzer Podcastle benutzt, um an Audioinhalten zu arbeiten, aber auch das Video damit einholt.