Die von Lightspeed Ventures unterstützte Audioplattform Pocket FM gab bekannt, dass sie eine Partnerschaft mit dem Sprachklonunternehmen ElevenLabs eingegangen ist, um Textinhalte wie Drehbücher mithilfe künstlicher Intelligenz schnell in Audioserien umzuwandeln.
Pocket FM, das im März 103 Millionen Dollar in der Serie-D-Finanzierungsrunde einsammelte, teilte Tech damals mit, dass es bereits mit der Möglichkeit experimentiere, Textinhalte mithilfe der Technologie von ElevenLabs in Audio umzuwandeln. Nun hat das in Indien ansässige Unternehmen die Partnerschaft erweitert, um das Konvertierungstool in den nächsten Wochen allen Entwicklern zur Verfügung zu stellen.
In der Testphase produzierte Pocket FM mithilfe der KI-Technologie von ElevenLab bereits 30.000 Stunden Audioserien. Mit der neuen Version rechnet das Startup damit, seine Inhaltsbibliothek von über 100.000 Stunden Audioinhalten in diesem Jahr zu verdreifachen. Pocket FM gab außerdem an, dass die KI-gestützten Tools während der Versuchsphase dabei geholfen hätten, die Kosten für die Audioproduktion um 90 % zu senken.
Prateek Dixit, Mitbegründer und CTO von Pocket FM, erklärte Tech in einem Telefonat, dass das Unternehmen es Autoren mit dieser Partnerschaft einfacher machen möchte, ihre Texte in Audioserien umzuwandeln.
„Wir haben über 250.000 Autoren (einschließlich derjenigen auf der Pocket Novel-Schreibplattform des Unternehmens) und diese Partnerschaft senkt die Kosten für die Einrichtung und Audioaufnahme für sie“, sagte er.
„Selbst mit einer guten Ausstattung an Aufnahmewerkzeugen und -geräten können Autoren etwa 30 Minuten hochwertigen Audioinhalt pro Tag produzieren. Mit den KI-Tools kann diese Leistung zehnmal höher sein“, fügte er hinzu.
Pocket FM hat ein Tool entwickelt, das die Technologie von ElevenLabs integriert und Autoren, die ihre Inhalte konvertieren möchten, 50 Stimmen bietet. Mati Staniszewski, Mitbegründer von ElevenLabs, sagte, dass das Tool seines Unternehmens den Kontext des Textes versteht und automatisch Emotionen aus der Stimme ableitet.
„Durch die Zusammenarbeit mit Pocket FM setzen wir unsere neueren Modelle ein, die das Schreibgenre besser verstehen und emotionaler sind“, sagte Staniszewski.
Dixit merkte an, dass die Plattform auf der Grundlage von Daten aus der Interaktion der Benutzer mit dieser Art von Inhalten auch plant, Stimmen vorzuschlagen, die für Autoren eines bestimmten Genres gut geeignet sind.
Pocket FM ist nicht die einzige Plattform für Audioserien, die mit KI-gestützten Tools experimentiert. Das von Google unterstützte Kuku FM verwendet GPT-4, Claude, BandLab und sogar ElevenLabs, um seinen Autoren in verschiedenen Phasen der Erstellung zu helfen, darunter bei der Verfeinerung des Skripts, der Erstellung von Miniaturansichten, dem Hinzufügen von Soundeffekten und der Konvertierung von Text in Audio.
Kuku FM teilte Tech mit, dass der Sender auch mit der Verwendung von Tools zur visuellen Generierung wie Midjourney und Runway experimentiere, um inhaltsbezogene Anzeigen zu erstellen.
Qualität der Inhalte und Einfluss auf Künstler
KI-gestützte Tools versprechen, schneller mehr Inhalte zu generieren. Das heißt aber nicht, dass die Inhalte auch gut sind. Pocket FMs Lösung zur Unterstützung der Entdeckung und zur Bereitstellung hochwertiger Inhalte besteht darin, seinen Entdeckungsalgorithmus zu verfeinern und mit der Einbindung der Benutzer zu experimentieren.
„Wenn ein Autor eine Audioserie veröffentlicht, stellen wir diesen Inhalt einer ausgewählten Anzahl von Benutzern zur Verfügung und beobachten die Engagement-Kennzahlen. Wenn diese Kennzahlen positiv sind, verbreiten wir das weiter“, sagte Dixit.
Der Einsatz von KI könnte zu schnelleren Ergebnissen und einer größeren Inhaltsbibliothek für diese Plattformen führen, würde aber auch die Rolle der mit ihnen arbeitenden Synchronsprecher einschränken. Die indische Association of Voiceover Artists (AVA) hat ihre Bedenken hinsichtlich einer möglichen Übernahme durch KI zum Ausdruck gebracht.
„Wenn die KI die Oberhand gewinnt, sind wir am Ende. Als Synchronsprecher müssen wir uns regulieren lassen, damit unser Lebensunterhalt gesichert ist“, sagt Amarinder Singh Sodhi, Generalsekretär des Verbands. sagte der indischen Publikation Scroll.
Sodi berichtete Scroll auch von Vorfällen, bei denen Synchronsprecher ins Studio gerufen wurden, um Samples für das Training von KI aufzunehmen, ohne dass ihre Zustimmung eingeholt oder sie darüber informiert wurden.
„Auf emotionaler Ebene macht es mir Angst. Durch den Einsatz von KI verwässert man im Wesentlichen die menschliche Erfahrung des Geschichtenerzählens. Man verliert eine emotionale Verbindung“, sagte der in Delhi lebende Synchronsprecher Aditya Mattoo gegenüber Tech.
Er fügte hinzu, dass der Markt mit schlechten Inhalten überschwemmt würde, wenn man Leuten Zugang zu Premium-Stimmen gewährte, die weder über den Geschmack noch über das Können verfügten, qualitativ hochwertige Inhalte zu produzieren.
Als wir nach den Auswirkungen der KI-gestützten Sprachgenerierung auf Pocket FM fragten, beantwortete das Unternehmen die Frage nicht direkt. Dixit merkte jedoch an, dass die Interaktion mit KI-generierten Inhalten in seinen Experimenten „so gut ist wie die Produktion menschlicher Voiceovers“. Insbesondere arbeitet das Unternehmen auch an einer Technologie, um mehrere Stimmen in eine Audioausgabe zu integrieren.
Weder Pocket FM noch Kuku FM kennzeichnen ihre Inhalte derzeit mit Kennzeichnungen, um darauf hinzuweisen, ob beim Erstellungsprozess KI zum Einsatz kam.