D-ID bringt ein KI-Videoübersetzungstool auf den Markt, das Stimmklonen und Lippensynchronisation umfasst

KI-Plattform zur Videoerstellung TAT ist das neueste Unternehmen, das ein Tool zur Übersetzung von Videos in andere Sprachen mithilfe von KI-Technologien auf den Markt bringt. In diesem Fall klont D-ID jedoch auch die Stimme des Sprechers und ändert im Rahmen des KI-Bearbeitungsprozesses seine Lippenbewegungen, damit sie den übersetzten Wörtern entsprechen.

Die Technologie stammt aus früheren Arbeiten von D-ID. Sie erinnern sich vielleicht noch an den viralen Trend vor ein paar Jahren, bei dem Benutzer ihre älteren Familienfotos animierten und später diese Fotos konnten sprechen. Aufgrund dieses Erfolgs schloss das Startup 2022 eine Finanzierungsrunde der Serie B in Höhe von 25 Millionen US-Dollar ab, mit dem Ziel, seine wachsende Zahl von Unternehmenskunden in den USA zu bedienen, die seine Technologie zur Erstellung KI-gestützter Videos nutzten.

Mit der jetzt eingeführten KI-Videoübersetzung Mit der Technologie, die D-ID-Abonnenten derzeit kostenlos angeboten wird, können Entwickler ihre Videos automatisch in andere Sprachen übersetzen lassen, um ihre Reichweite zu vergrößern. Insgesamt sind derzeit 30 Sprachen verfügbar, darunter Arabisch, Mandarin, Japanisch, Hindi, Spanisch und Französisch. Ein D-ID-Abonnement beginnt bei 56 US-Dollar pro Jahr für den günstigsten Tarif und die geringste Anzahl an Credits, die für KI-Funktionen verwendet werden können, und steigt dann auf 1.293 US-Dollar pro Jahr, bevor es auf den Unternehmenspreis umsteigt.

D-ID schlägt vor, dass die neue KI-Videotechnologie Kunden dabei helfen könnte, Lokalisierungskosten zu sparen, wenn sie ihre Kampagnen auf ein globales Publikum in Bereichen wie Marketing, Unterhaltung und soziale Medien ausrichten. Die Technologie wird mit anderen Lösungen sowohl für Synchronisation als auch für KI-Video konkurrieren.

Über Jahre hinweg haben Synchronisationstechnologien es Videozuschauern erleichtert, Audio in ihrer eigenen Sprache zu hören, waren aber für kleinere Produzenten oft unzugänglich. Das ändert sich nun, da Unternehmen den Zugang zu Technologie verbessert haben. So hat YouTube beispielsweise eine mehrsprachige Audiofunktion eingeführt, die seinen Produzenten helfen soll, ein breiteres Publikum zu erreichen, indem sie ihre Videos in andere Sprachen übersetzen. Der bekannte YouTuber Mr. Beast (Jimmy Donaldson) war einer der ersten Anwender und hat die Technologie genutzt, um mehrere seiner beliebten Videos in 11 weitere Sprachen zu bringen.

Mit KI erweitert sich auch die Fähigkeit, Stimmen zu erstellen, zu übersetzen oder zu klonen. Microsoft kündigte dieses Jahr an, KI zu nutzen, um YouTube-Videos und andere Videos zu übersetzen und zu synchronisieren, während Sie sie ansehen. Im Juli veröffentlichte die Creator-Plattform Vimeo enthüllt Tools, mit denen Sie nicht nur Audio und Untertitel übersetzen, sondern die Stimme des Sprechers mithilfe von KI-Technologien nachbilden können. Zahlreiche Unternehmen bieten auch Tools zum Klonen von Stimmen oder KI-Übersetzungen (oder manchmal beides) an, darunter Descript, ElevenLabs, Speechify, Veed, Camb.ai, Captions.ai und Akool, um nur einige zu nennen, sowie Tools, mit denen Sie Videos mit KI-Avataren erstellen können, die Dutzende von Sprachen sprechen können, wie die von HeyGen, Deepbrain-KI und andere.

KI-Bibliotheken für die Synchronisation und Lippensynchronisation, wie beispielsweise wav2lip, haben es Startups ebenfalls erleichtert, derartige Tools zu entwickeln und den Entwicklern gleichzeitig zu vermitteln, dass sie die Nutzung von KI-Technologie einfacher und vielleicht auch kostengünstiger machen.

D-ID gibt an, dass die neue Videoübersetzungstechnologie über D-ID Studio und dessen API verfügbar sein wird. Es wird eine einmonatige Testversion angeboten und weitere Demos sind auf der Website.

tch-1-tech