Der Videogenerator von Google kommt für einige weitere Kunden – genauer gesagt für Google Cloud-Kunden.
Am Dienstag gab Google bekannt, dass Veo, sein KI-Modell, das aus Bildern und Eingabeaufforderungen kurze Videoclips generieren kann, in der privaten Vorschau für Kunden verfügbar sein wird, die Vertex AI, die KI-Entwicklungsplattform von Google Cloud, nutzen.
Google sagt, dass der Start es einem Kunden, Quora, ermöglichen wird, Veo auf seine Poe-Chatbot-Plattform zu bringen, und einem anderen, Oreo-Eigentümer Mondelez International, Marketinginhalte mit seinen Agenturpartnern zu erstellen.
„Wir haben Poe geschaffen, um den Zugang zu den weltweit besten generativen KI-Modellen zu demokratisieren“, sagte Poe-Produktleiter Spencer Chan in einer Erklärung. „Durch Partnerschaften mit führenden Unternehmen wie Google erweitern wir die kreativen Möglichkeiten über alle KI-Modalitäten hinweg.“
Flaggschiff-Generator
Veo wurde im April vorgestellt und kann 1080p-Clips von Tieren, Objekten und Menschen mit einer Länge von bis zu sechs Sekunden und entweder 24 oder 30 Bildern pro Sekunde erzeugen. Laut Google ist Veo in der Lage, verschiedene visuelle und filmische Stile aufzunehmen, darunter Landschaftsaufnahmen und Zeitrafferaufnahmen, und bereits erstelltes Filmmaterial zu bearbeiten.
Warum so lange auf die API warten? „Enterprise Readiness“, sagt Warren Barkley, Senior Director für Produktmanagement bei Google Cloud.
„Seit der Ankündigung von Veo haben unsere Teams das Modell für Unternehmenskunden auf Vertex AI erweitert, gehärtet und verbessert“, sagte er. „Ab heute können Sie hochauflösende Videos in 720p, im Seitenverhältnis 16:9 Querformat oder 9:16 Hochformat erstellen. Ähnlich wie wir die Fähigkeiten anderer Modelle wie Gemini auf Vertex AI verbessert haben, werden wir dies auch weiterhin für Veo tun.“
Veo versteht VFX anhand von Eingabeaufforderungen einigermaßen gut, sagt Google (denken Sie an Bildunterschriften wie „enorme Explosion“), und hat ein gewisses Verständnis für Physik, einschließlich Fluiddynamik. Das Modell unterstützt auch die maskierte Bearbeitung für Änderungen an bestimmten Bereichen eines Videos und ist technisch in der Lage, Filmmaterial zu längeren Projekten zusammenzufassen.
Auf diese Weise ist Veo mit den heute führenden Videogenerierungsmodellen konkurrenzfähig – nicht nur mit Sora von OpenAI, sondern auch mit Modellen von Adobe, Runway, Luma, Meta und anderen.
Das soll nicht heißen, dass Veo perfekt ist. Aufgrund der Einschränkungen der heutigen KI verschwinden Objekte in Veos Videos und tauchen ohne große Erklärung oder Konsistenz wieder auf. Und Veo versteht oft die Physik falsch. Zum Beispiel können Autos auf unerklärliche Weise und unmöglich im Handumdrehen rückwärts fahren.
Ausbildung und Risiken
Veo wurde anhand einer Menge Filmmaterial geschult. So funktioniert es im Allgemeinen mit generativen KI-Modellen: Ausgestattet mit einem Beispiel nach dem anderen irgendeiner Form von Daten greifen die Modelle Muster in den Daten auf, die es ihnen ermöglichen, neue Daten zu generieren – im Fall von Veo Videos.
Google wird, wie viele seiner KI-Konkurrenten auch, nicht genau sagen, woher es die Daten bezieht, um seine generativen Modelle zu trainieren. Speziell nach Veo gefragt, würde Barkley nur sagen, dass das Modell „möglicherweise“ auf „einigen“ YouTube-Inhalten „in Übereinstimmung mit“ trainiert wird [Google’s] Vereinbarung mit YouTube-Erstellern.“ (Die Muttergesellschaft von Google, Alphabet, besitzt YouTube.)
„Veo wurde in einer Vielzahl hochwertiger Videobeschreibungsdatensätze geschult, die stark aus Sicherheitsgründen kuratiert sind“, fügte er hinzu. „Die grundlegenden Modelle von Google basieren hauptsächlich auf öffentlich zugänglichen Quellen.“
Ein Bericht der New York Times im April ergab, dass Google erweiterte seine Nutzungsbedingungen Letztes Jahr teilweise, um dem Unternehmen die Nutzung weiterer Daten zum Trainieren seiner KI-Modelle zu ermöglichen. Unter den alten Nutzungsbedingungen war nicht klar, ob Google YouTube-Daten für die Entwicklung von Produkten über die Videoplattform hinaus verwenden durfte. Nicht so unter den neuen Bedingungen, die die Zügel deutlich lockern.
Während Google Tools hostet, mit denen Webmaster die Bots des Unternehmens daran hindern können, Trainingsdaten von ihren Websites zu entfernen, bietet es keinen Mechanismus, mit dem Ersteller ihre Werke aus den vorhandenen Trainingssätzen entfernen können. Google behauptet, dass Trainingsmodelle auf öffentlich verfügbaren Daten basieren faire Nutzungwas bedeutet, dass das Unternehmen der Ansicht ist, dass es nicht verpflichtet ist, die Erlaubnis der Dateneigentümer einzuholen oder diese zu entschädigen. (Google gibt jedoch an, dass es keine Kundendaten zum Trainieren seiner Modelle verwendet.)
Aufgrund der Art und Weise, wie sich heutige generative Modelle beim Training verhalten, bergen sie bestimmte Risiken, wie z. B. Aufstoßen, wenn ein Modell eine Spiegelkopie der Trainingsdaten generiert. Es wurde festgestellt, dass Werkzeuge wie das von Runway ausspucken Standbilder im Wesentlichen denen von urheberrechtlich geschützten Videos ähneln und ein mögliches rechtliches Minenfeld für Benutzer der Tools darstellen.
Die Lösung von Google sind Filter auf Eingabeaufforderungsebene für Veo, auch für gewalttätige und explizite Inhalte. Für den Fall, dass diese scheitern, sagt das Unternehmen, dass es so ist Entschädigungspolitik Bietet berechtigten Veo-Benutzern eine Verteidigung gegen Vorwürfe einer Urheberrechtsverletzung.
„Wir planen, Veo-Ausgaben auf Vertex AI zu entschädigen, sobald es allgemein verfügbar wird“, sagte Barkley.
Veo überall
In den letzten Monaten hat Google Veo langsam in weitere seiner Apps und Dienste integriert, um das Modell zu verbessern.
Im Mai brachte Google Veo für ausgewählte Tester in sein Early-Access-Programm Google Labs. Und im September kündigte Google eine Veo-Integration für YouTube Shorts an, das Kurzvideoformat von YouTube, um es YouTubern zu ermöglichen, Hintergründe und sechs Sekunden lange Videoclips zu erstellen.
Was ist mit den Deepfake-Risiken all dessen, fragen Sie sich vielleicht? Google sagt, dass es seine proprietäre Wasserzeichentechnologie SynthID verwendet, um unsichtbare Markierungen in von Veo generierte Frames einzubetten. Zugegeben, SynthID ist nicht narrensicher gegen Änderungen und Google hat die Inhalts-ID nicht an Dritte weitergegeben.
Dies könnten strittige Punkte sein, wenn Veo keine nennenswerte Bedeutung erlangt. Im Bereich Partnerschaften hat Google Boden an generative KI-Konkurrenten abgetreten, die mit ihren Tools schnell Produzenten, Studios und Kreativagenturen für sich gewinnen. Runway hat kürzlich einen Vertrag mit Lionsgate unterzeichnet, um ein benutzerdefiniertes Modell für den Filmkatalog des Studios zu trainieren, und OpenAI hat sich mit ihm zusammengetan Marken Und unabhängige Direktoren um Soras Potenzial zu demonstrieren.
Google sagte einmal, dass man die Anwendungen von Veo in Zusammenarbeit mit Künstlern wie Donald Glover (auch bekannt als Childish Gambino) erkundet. Das Unternehmen gab heute keine aktuellen Informationen zu diesen Outreach-Bemühungen bekannt.
Googles Pitch für Veo – eine Möglichkeit, Kosten zu senken und Videoinhalte schnell zu erweitern – birgt die Gefahr, Kreative abzuschrecken. Ein 2024 Studie Die von der Animation Guild, einer Gewerkschaft, die Hollywood-Animatoren und Cartoonisten vertritt, in Auftrag gegebene Studie schätzt, dass bis 2026 mehr als 100.000 US-amerikanische Film-, Fernseh- und Animationsjobs durch KI zerstört werden.
Das könnte den vorsichtigen, „langsamen und stetigen“ Ansatz von Google erklären. Auf Nachfrage wollte Barkley weder eine voraussichtliche voraussichtliche Ankunftszeit für Veos allgemeine Verfügbarkeit in Vertex nennen, noch würde er sagen, wann Veo zu weiteren Google-Plattformen und -Diensten hinzukommen könnte.
„Normalerweise veröffentlichen wir Produkte zuerst in der Vorschau, da wir so von einer ausgewählten Gruppe unserer Unternehmenskunden Feedback aus der Praxis einholen können, bevor sie allgemein für eine breitere Nutzung verfügbar werden“, sagte er. „Dies trägt dazu bei, die Funktionalität zu verbessern und sicherzustellen, dass das Produkt den Bedürfnissen unserer Kunden entspricht.“
In einer entsprechenden Ankündigung gab Google heute bekannt, dass sein Flaggschiff-Bildgenerator Imagen 3 jetzt für alle Vertex AI-Kunden ohne Warteliste verfügbar ist. Es verfügt über neue Anpassungs- und Bildbearbeitungsfunktionen – diese stehen jedoch vorerst auf einer separaten Warteliste.