Stabilitäts-KI kommt in das Videogenerierungsspiel ein

Stabilitaets KI kommt in das Videogenerierungsspiel ein

KI-Startups das sind nicht Offenbar macht OpenAI diese Woche Schluss – und hält an seinen Produkt-Roadmaps fest, auch wenn die Berichterstattung über das Chaos bei OpenAI den Äther dominiert.

Siehe: Stabilitäts-KI, das heute Nachmittag angekündigt Stable Video Diffusion, ein KI-Modell, das Videos durch Animation vorhandener Bilder generiert. Basierend auf dem bestehenden Stable Diffusion-Text-zu-Bild-Modell von Stability ist Stable Video Diffusion eines der wenigen Videogenerierungsmodelle, die als Open Source verfügbar sind – oder auch kommerziell.

Aber nicht für jeden.

Stable Video Diffusion befindet sich derzeit in einer „Forschungsvorschau“, wie Stability es beschreibt. Diejenigen, die das Modell ausführen möchten, müssen bestimmten Nutzungsbedingungen zustimmen, die die beabsichtigten Anwendungen von Stable Video Diffusion (z. B. „pädagogische oder kreative Werkzeuge“, „Design und andere künstlerische Prozesse“ usw.) und nicht beabsichtigte Anwendungen („ sachliche oder wahre Darstellungen von Personen oder Ereignissen“).

Angesichts des Wie andere solche KI-Forschungsvorschauen – einschließlich Stabilität ist etwas Eigenes – in die Geschichte eingegangen sind, würde es diesen Autor nicht wundern, wenn das Modell in kurzer Zeit im Dark Web kursieren würde. Wenn dies der Fall ist, würde ich mir Sorgen darüber machen, wie Stable Video missbraucht werden könnte, da es offenbar keinen integrierten Inhaltsfilter hat. Als Stable Diffusion veröffentlicht wurde, dauerte es nicht lange, bis Schauspieler mit fragwürdigen Absichten es nutzten, um nicht einvernehmliche Deepfake-Pornos zu erstellen – und Schlimmeres.

Aber ich schweife ab.

Stable Video Diffusion gibt es eigentlich in zwei Modellen: SVD und SVD-XT. Die erste, SVD, wandelt Standbilder in 576×1024-Videos in 14 Bildern um. SVD-XT verwendet dieselbe Architektur, erhöht jedoch die Frames auf 24. Beide können Videos mit 3 bis 30 Bildern pro Sekunde erzeugen.

Laut a weißes Papier SVD und SVD-XT wurden zusammen mit Stable Video Diffusion veröffentlicht und zunächst auf einem Datensatz von Millionen Videos trainiert und dann auf einem viel kleineren Satz von Hunderttausenden bis etwa einer Million Clips „feinabgestimmt“. Wo diese Videos herkamen, ist nicht sofort klar – das Papier deutet an, dass viele aus öffentlichen Forschungsdatensätzen stammten – daher ist es unmöglich zu sagen, ob einige urheberrechtlich geschützt waren. Wenn dies der Fall wäre, könnten die Benutzer von Stability and Stable Video Diffusion rechtlichen und ethischen Herausforderungen in Bezug auf Nutzungsrechte ausgesetzt sein. Wir werden sehen.

Bildnachweis: Stabilitäts-KI

Unabhängig von der Quelle der Trainingsdaten generieren die Modelle – sowohl SVD als auch SVD-XT – ziemlich hochwertige Vier-Sekunden-Clips. Nach Einschätzung dieses Autors könnten die ausgewählten Beispiele auf dem Stability-Blog mit den Ergebnissen von Metas aktuellem Videogenerierungsmodell sowie mit KI-produzierten Beispielen, die wir von Google und den KI-Startups Runway und gesehen haben, mithalten Pika Labs.

Die stabile Videodiffusion weist jedoch Einschränkungen auf. Stability macht diesbezüglich keine Angaben und schreibt auf den Hugging-Face-Seiten der Models: Die Seiten Von hier aus können Forscher den Zugriff auf stabile Videodiffusion beantragen – dass die Modelle keine Videos ohne Bewegung oder langsame Kameraschwenks erzeugen, nicht durch Text gesteuert werden können, Text nicht wiedergeben (zumindest nicht lesbar) oder Gesichter und Personen nicht konsistent „richtig“ generieren können.

Dennoch – obwohl es noch am Anfang steht – stellt Stability fest, dass die Modelle recht erweiterbar sind und an Anwendungsfälle wie die Generierung von 360-Grad-Ansichten von Objekten angepasst werden können.

Was könnte sich also aus Stable Video Diffusion entwickeln? Nun, Stability sagt, dass es „eine Vielzahl“ von Modellen plant, die auf SVD und SVD-XT „aufbauen und diese erweitern“, sowie ein „Text-zu-Video“-Tool, das Texteingabeaufforderungen in die Modelle im Web bringen wird. Das ultimative Ziel scheint die Kommerzialisierung zu sein – Stability weist zu Recht darauf hin, dass Stable Video Diffusion potenzielle Anwendungen in „Werbung, Bildung, Unterhaltung und darüber hinaus“ hat.

Sicherlich ist Stability auf der Suche nach einem Erfolg, da die Investoren des Startups den Druck erhöhen.

Im April, Semafor gemeldet dass Stability AI Bargeld verschwendete, was eine Suche nach Führungskräften auslöste, um den Umsatz anzukurbeln. Laut Forbes hat das Unternehmen die Zahlung von Löhnen und Lohnsteuern wiederholt verzögert oder gar nicht gezahlt, was dazu geführt hat, dass AWS – das Stability als Rechenleistung für das Training seiner Modelle nutzt – droht, Stability den Zugriff auf seine GPU-Instanzen zu entziehen.

Stabile Videoverbreitung

Bildnachweis: Stabilitäts-KI

Stabilitäts-KI kürzlich erzogen 25 Millionen US-Dollar durch eine Wandelanleihe (d. h. Schulden, die in Eigenkapital umgewandelt werden), wodurch sich die Gesamteinnahme auf über 125 Millionen US-Dollar beläuft. Aber es hat keine neue Finanzierung zu einer höheren Bewertung abgeschlossen; Das Startup wurde zuletzt mit 1 Milliarde US-Dollar bewertet. Trotz anhaltend niedriger Einnahmen und einer hohen Burn-Rate strebt die Stabilitätsbehörde angeblich eine Vervierfachung dieses Betrags in den nächsten Monaten an.

Die Stabilität erlitt kürzlich einen weiteren Schlag mit dem Abfahrt von Ed Newton-Rex, der etwas mehr als ein Jahr lang Vizepräsident für Audio beim Startup war und eine entscheidende Rolle bei der Einführung von Stabilitys Musikgenerierungstool Stable Audio spielte. In einem öffentlichen Brief sagte Newton-Rex, dass er Stability wegen einer Meinungsverschiedenheit über das Urheberrecht und darüber, wie urheberrechtlich geschützte Daten zum Trainieren von KI-Modellen verwendet werden sollten – und nicht – verlassen habe.

tch-1-tech