Generative KI ist plötzlich allgegenwärtig. Im vergangenen Jahr haben Sie wahrscheinlich Leute gesehen, die beeindruckende KI-generierte Kunstwerke präsentiert haben, dank der Fortschritte bei Text-to-Image-Algorithmen, die von Gruppen wie OpenAI und Stability AI eingeführt wurden. Eine Vielzahl von Start-ups versucht nun, Anwendungen für diese neue Klasse von Sprachmodellen zu entwickeln, bei denen die Maschine in der Lage ist, neue Texte, Bilder und Videos auf der Grundlage einfacher menschlicher Eingaben zu erstellen.
Einer von ihnen ist Film, ein zwei Jahre altes Startup, das generative KI zusammen mit anderen Frameworks für maschinelles Lernen wie GAN nutzt, um Videos mit sprechenden menschlichen Avataren zu erstellen. Die Plattform richtet sich mit einer Drag-and-Drop-Oberfläche im Canva-Stil an Vermarkter. Benutzer wählen zunächst aus einer Reihe von Vorlagen aus, sei es ein Thema für eine Shopping-Site oder eine Reise nach Japan. Dann können sie einen hyperrealistischen Avatar als „Sprecher“ des Videos hinzufügen, dessen Sprache durch Texteingabe generiert wird. Das Outfit, das Gesicht und die Stimme des von der KI geschaffenen Menschen können mit einem Klick ausgetauscht werden.
Die Nutzerbasis von Movio liegt derzeit im unteren Hunderttausendbereich, wobei zahlende Kunden fast 1.000 erreichen. Es hat bisher rund 9 Millionen US-Dollar an Finanzmitteln von Investoren wie IDG, Sequoia Capital China und zuletzt Baidu Ventures aufgebracht. Xu traf seinen Mitbegründer und CFO Liang Wang, einen Veteranen von ByteDance und dem sozialen Musiknetzwerk Smule, als die beiden an der Carnegie Mellon University studierten.
Letztes Jahr haben wir darüber berichtet, wie Movio, das damals Surreal hieß, einen brillanten Anwendungsfall für Deepfake gefunden hat. Zu dieser Zeit hatte das Unternehmen seinen Sitz in Shenzhen, dem Hardware-Paradies, das auch für seine dynamische exportorientierte E-Commerce-Branche bekannt ist – die meisten Amazon-Verkäufer stammen aus der Metropole. Händler verwendeten Movio, um Promo-Videos zu erstellen, die von synthetisierten Menschen erzählt wurden, wodurch die Notwendigkeit, echte Models einzustellen, überflüssig wurde.
Movio ist kürzlich nach Los Angeles gezogen, wo sein Mitbegründer und CEO ist Josh Xu arbeitete zuvor sechs Jahre als Snap-Ingenieur. Das liegt daran, dass das Startup hofft, die Welle von Vermarktern zu erobern, die sich für KI-Tools zur Unterstützung ihrer Arbeit erwärmen.
„Wir tun, was Jasper und Copy.ai tun, außer für die Videoproduktion“, sagte Xu gegenüber Tech und bezog sich dabei auf zwei der besten KI-Content-Helfer von heute. „Videos sind mächtig – stellen Sie sich nur vor, wenn Vermarkter E-Mails mit sprechenden menschlichen Avataren anstelle von reinem Text senden können.“
Movio kann vorerst nur sprechende Köpfe synthetisieren, aber es arbeitet an einer Zukunft, in der seine Algorithmen Ganzkörperbewegungen erzeugen können, wodurch das Unternehmen seinem Ziel näher kommt, eine „All-in-One-KI-Videoproduktionsplattform“ zu sein. ”
Das Startup berechnet Benutzern die Länge der Videos, die mit dem von ihnen eingereichten Skript korreliert, sowie eine Premium-Gebühr von denjenigen, die benutzerdefinierte Gesichter verwenden, eine Funktion, die laut Xu besonders beliebt für „Unternehmensschulungen“ ist. Movio hat seine API auch für Websites von Drittanbietern geöffnet, von denen einige seine Engine verwenden, um Pop-up-Kundensupport-Avatare zu erstellen.
„KI-generierte Videos sind nur ein kleines Segment innerhalb der AIGC [AI generated content] Industrie. Wir haben gesehen, wie viel Text-to-Image bewirken kann, und ich gehe davon aus, dass Text-to-Video noch größere Störungen hervorrufen wird, wenn es fertig ist“, sagte Xu.