Generative KI kommt für Videos. Eine neue Webseite, QuickVid, kombiniert mehrere generative KI-Systeme in einem einzigen Tool zur automatischen Erstellung von YouTube-, Instagram-TikTok- und Snapchat-Kurzvideos. Mit nur einem einzigen Wort wählt QuickVid ein Hintergrundvideo aus einer Bibliothek aus, schreibt ein Skript und Schlüsselwörter, überlagert von DALL-E 2 generierte Bilder und fügt ein synthetisches Voiceover und Hintergrundmusik aus der lizenzfreien Musikbibliothek von YouTube hinzu.
Der Schöpfer von QuickVid, Daniel Habib, sagt, dass er den Dienst aufbaut, um den Schöpfern zu helfen, die „ständig wachsende“ Nachfrage ihrer Fans zu befriedigen.
„Indem QuickVid Entwicklern Tools zur Verfügung stellt, mit denen sie schnell und einfach qualitativ hochwertige Inhalte erstellen können, hilft QuickVid ihnen, ihre Inhaltsausgabe zu steigern und das Burnout-Risiko zu verringern“, sagte Habib in einem E-Mail-Interview mit Tech. „Unser Ziel ist es, Ihren Lieblingsschöpfer in die Lage zu versetzen, mit den Anforderungen seines Publikums Schritt zu halten, indem wir Fortschritte in der KI nutzen.“
Aber je nachdem, wie sie verwendet werden, drohen Tools wie QuickVid, bereits überfüllte Kanäle mit Spam und duplikativen Inhalten zu überfluten. Sie sehen sich auch potenziellen Gegenreaktionen von Erstellern gegenüber, die sich entscheiden, die Tools nicht zu verwenden, sei es aus Kostengründen (10 US-Dollar pro Monat) oder aus Prinzip, müssen aber möglicherweise mit einer Reihe neuer KI-generierter Videos konkurrieren.
Gehe nach Video
QuickVid, das Habib, ein autodidaktischer Entwickler, der zuvor bei Meta an der Facebook Live- und Videoinfrastruktur gearbeitet hat, in wenigen Wochen erstellt hat, hat am 27. Dezember gestartet. Es ist derzeit relativ nackt – Habib sagt, dass weitere Personalisierungsoptionen eintreffen werden Januar – aber QuickVid kann die Komponenten zusammenschustern, aus denen ein typisches informatives YouTube-Short- oder TikTok-Video besteht, einschließlich Untertiteln und sogar Avataren.
Es ist einfach zu bedienen. Zuerst gibt ein Benutzer eine Eingabeaufforderung ein, die das Thema des Videos beschreibt, das er erstellen möchte. QuickVid verwendet die Eingabeaufforderung, um ein Skript zu generieren, wobei die generativen Textfunktionen von GPT-3 genutzt werden. Aus Schlüsselwörtern, die entweder automatisch aus dem Skript extrahiert oder manuell eingegeben wurden, wählt QuickVid ein Hintergrundvideo aus der lizenzfreien Stock-Medienbibliothek Pexels aus und generiert mithilfe von DALL-E 2 Overlay-Bilder. Anschließend gibt es ein Voice-Over über die Text-to-Speech-API von Google Cloud aus – Habib sagt, dass Benutzer bald in der Lage sein werden, ihre Stimme zu klonen – bevor sie all diese Elemente zu einem Video kombinieren.
Sehen Sie sich dieses Video an, das mit der Eingabeaufforderung „Cats“ erstellt wurde:
Oder dieses:
QuickVid geht sicherlich nicht an die Grenzen dessen, was mit generativer KI möglich ist. Sowohl Meta als auch Google haben KI-Systeme vorgestellt, die bei einer Texteingabeaufforderung völlig originelle Clips generieren können. Aber QuickVid verschmilzt vorhandene KI, um das sich wiederholende, vorlagenbasierte Format von B-Roll-lastigen Kurzformvideos zu nutzen, und umgeht das Problem, das Filmmaterial selbst generieren zu müssen.
„Erfolgreiche Ersteller haben eine extrem hohe Qualität und sind nicht daran interessiert, Inhalte zu veröffentlichen, die ihrer Meinung nach nicht in ihrer eigenen Stimme liegen“, sagte Habib. „Das ist der Anwendungsfall, auf den wir uns konzentrieren.“
Da dies angeblich der Fall ist, sind die Videos von QuickVid in Bezug auf die Qualität im Allgemeinen eine gemischte Sache. Die Hintergrundvideos sind eher zufällig oder nur am Rande mit dem Thema verbunden, was nicht verwundert, da QuickVid derzeit auf den Pexels-Katalog beschränkt ist. Die von DALL-E 2 generierten Bilder weisen derweil die Einschränkungen der heutigen Text-zu-Bild-Technologie auf, wie verstümmelter Text und falsche Proportionen.
Als Antwort auf mein Feedback sagte Habib, dass QuickVid „täglich getestet und gebastelt wird“.
Kopierschutz Probleme
Laut Habib behalten QuickVid-Benutzer das Recht, die von ihnen erstellten Inhalte kommerziell zu nutzen, und haben die Erlaubnis, sie auf Plattformen wie YouTube zu monetarisieren. Aber der Urheberrechtsstatus rund um KI-generierte Inhalte ist … zumindest derzeit nebulös. Das US-Patent- und Markenamt (USPTO) kürzlich gerührt Urheberrechtsschutz für einen KI-generierten Comic zu widerrufen, zum Beispiel zu sagen, dass urheberrechtlich geschützte Werke eine menschliche Urheberschaft erfordern.
Auf die Frage, wie sich die USPTO-Entscheidung auf QuickVid auswirken könnte, sagte Habib, er glaube, dass es nur um die „Patentierbarkeit“ von KI-generierten Produkten gehe und nicht um die Rechte der Urheber, ihre Inhalte zu nutzen und zu monetarisieren. Schöpfer, betonte er, reichen nicht oft Patente für Videos ein und lehnen sich normalerweise an die Schöpferwirtschaft an, indem sie andere Schöpfer ihre Clips wiederverwenden lassen, um ihre eigene Reichweite zu erhöhen.
„Creatoren legen Wert darauf, qualitativ hochwertige Inhalte mit ihrer Stimme zu veröffentlichen, die zum Wachstum ihres Kanals beitragen“, sagte Habib.
Eine weitere rechtliche Herausforderung könnte sich auf die DALL-E 2-Integration von QuickVid auswirken – und damit auch auf die Fähigkeit der Website, Bildüberlagerungen zu generieren. Microsoft, GitHub und OpenAI werden verklagt in einer Sammelklage, in der sie beschuldigt werden, gegen das Urheberrecht verstoßen zu haben, indem sie Copilot, einem Codegenerierungssystem, erlaubt haben, Teile des lizenzierten Codes ohne Angabe von Quellen wiederzukäuen. (Copilot wurde gemeinsam von OpenAI und GitHub entwickelt, die Microsoft gehören.) Der Fall hat Auswirkungen auf die generative Kunst-KI wie DALL-E 2, die ebenfalls aus den Datensätzen kopiert und eingefügt wurde, auf denen sie trainiert wurden (dh Bilder).
Habib ist nicht besorgt und argumentiert, dass der generative KI-Genie aus der Flasche ist. „Wenn morgen eine weitere Klage auftaucht und OpenAI verschwindet, gibt es mehrere Alternativen, die QuickVid antreiben könnten“, sagte er und bezog sich dabei auf das Open-Source-DALL-E-2-ähnliche System Stable Diffusion. QuickVid testet Stable Diffusion bereits zur Generierung von Avatarbildern.
Moderation und Spam
Abgesehen von den rechtlichen Dilemmata könnte QuickVid bald ein Moderationsproblem haben. Während OpenAI Filter und Techniken implementiert hat, um sie zu verhindern, hat die generative KI bekannte Probleme mit Toxizität und sachlicher Genauigkeit. GPT-3 Ausgüsse Fehlinformationen, insbesondere über aktuelle Ereignisse, die über die Grenzen seiner Wissensbasis hinausgehen. Und ChatGPT, ein fein abgestimmter Abkömmling von GPT-3, war es gezeigt sexistische und rassistische Sprache zu verwenden.
Das ist besonders für Leute besorgniserregend, die QuickVid verwenden würden, um Informationsvideos zu erstellen. In einem Schnelltest ließ ich meinen Partner – der insbesondere in diesem Bereich viel kreativer ist als ich – ein paar anstößige Eingabeaufforderungen eingeben, um zu sehen, was QuickVid generieren würde. Man muss QuickVid zugutehalten, dass offensichtlich problematische Aufforderungen wie „Jüdische neue Weltordnung“ und „9/11-Verschwörungstheorie“ keine giftigen Skripte hervorbrachten. Aber für „Critical Race Theory Indoctrining Students“ erstellte QuickVid ein Video, das impliziert, dass die Critical Race Theory zur Gehirnwäsche von Schulkindern eingesetzt werden könnte.
Sehen:
Habib sagt, dass er sich auf die Filter von OpenAI verlässt, um den Großteil der Moderationsarbeit zu erledigen, und behauptet, dass es den Benutzern obliegt, jedes von QuickVid erstellte Video manuell zu überprüfen, um sicherzustellen, dass „alles innerhalb der Grenzen des Gesetzes liegt“.
„Als allgemeine Regel glaube ich, dass Menschen in der Lage sein sollten, sich auszudrücken und Inhalte zu erstellen, die sie wollen“, sagte Habib.
Darunter fallen offenbar Spam-Inhalte. Habib argumentiert, dass die Algorithmen der Videoplattformen, nicht QuickVid, am besten in der Lage sind, die Qualität eines Videos zu bestimmen, und dass Menschen, die Inhalte von geringer Qualität produzieren, „nur ihren eigenen Ruf schädigen“. Der Reputationsschaden wird die Leute natürlich davon abhalten, Massen-Spam-Kampagnen mit QuickVid zu erstellen, sagt er.
„Wenn die Leute Ihr Video nicht sehen wollen, werden Sie nicht auf Plattformen wie YouTube verbreitet“, fügte er hinzu. „Das Produzieren von minderwertigen Inhalten wird auch dazu führen, dass die Leute deinen Kanal in einem negativen Licht sehen.“
Aber es ist aufschlussreich, sich Werbeagenturen wie Fractl anzusehen, die 2019 ein KI-System namens Grover nutzten, um eine ganze Website mit Marketingmaterialien zu erstellen – der Ruf sei verdammt. In einem (n Interview Mit The Verge sagte Fractl-Partnerin Kristin Tynski, dass sie generative KI voraussehe, die „einen massiven Tsunami von computergenerierten Inhalten in jeder erdenklichen Nische“ ermöglichen werde.
Auf jeden Fall mussten Videoplattformen wie TikTok und YouTube nicht in großem Umfang mit der Moderation von KI-generierten Inhalten kämpfen. Deepfakes – synthetische Videos, die eine existierende Person durch das Ebenbild einer anderen Person ersetzen – begannen vor einigen Jahren, Plattformen wie YouTube zu bevölkern, angetrieben von Tools, die die Produktion von Deepfake-Material vereinfachten. Aber im Gegensatz zu den überzeugendsten Deepfakes von heute sind die Videotypen, die QuickVid erstellt, nicht offensichtlich in irgendeiner Weise von KI generiert.
Die Richtlinie der Google-Suche zu KI-generiertem Text könnte eine Vorschau auf das sein, was im Videobereich kommen wird. Google behandelt synthetischen Text nicht anders als von Menschen geschriebenen Text, wenn es um Suchrankings geht, aber ergreift Maßnahmen zu Inhalten, die „Suchrankings manipulieren und Nutzern nicht helfen sollen“. Dazu gehören zusammengefügte oder kombinierte Inhalte aus verschiedenen Webseiten, die „[doesn’t] ausreichenden Mehrwert schaffen“ sowie durch rein automatisierte Prozesse generierte Inhalte, die beide auf QuickVid zutreffen könnten.
Mit anderen Worten, KI-generierte Videos werden möglicherweise nicht sofort von den Plattformen verbannt, wenn sie in großem Umfang durchstarten, sondern werden einfach zu den Kosten für die Geschäftstätigkeit. Das dürfte die Befürchtungen von Experten nicht zerstreuen, die glauben, dass Plattformen wie TikTok zu einer neuen Heimat für werden irreführend Videos, aber – wie Habib während des Interviews sagte – „die generative KI-Revolution ist nicht aufzuhalten.“