Diffusionstransformatoren sind der Schlüssel hinter Sora von OpenAI – und sie werden GenAI auf den Kopf stellen

Diffusionstransformatoren sind der Schluessel hinter Sora von OpenAI – und

Sora von OpenAI, das im Handumdrehen Videos und interaktive 3D-Umgebungen generieren kann, ist eine bemerkenswerte Demonstration der Spitzenleistung von GenAI – ein echter Meilenstein.

Aber seltsamerweise ist eine der Innovationen, die dazu geführt haben, eine KI-Modellarchitektur, die umgangssprachlich als Diffusionstransformator bekannt ist, angekommen auf der KI-Forschungsszene vor Jahren.

Der Diffusionstransformator, der auch den neuesten Bildgenerator des KI-Startups Stability AI, Stable Diffusion 3.0, antreibt, scheint bereit zu sein, das GenAI-Feld zu verändern, indem er es GenAI-Modellen ermöglicht, über das bisher Mögliche hinaus zu skalieren.

Saining Xie, Informatikprofessor an der NYU, begann im Juni 2022 mit dem Forschungsprojekt, das den Diffusionstransformator hervorbrachte. Mit William Peebles, seinem Mentee, als Peebles ein Praktikum im KI-Forschungslabor von Meta absolvierte und jetzt Co-Leiter von Sora bei OpenAI, Xie kombinierte zwei Konzepte des maschinellen Lernens – Diffusion und das Transformator — um den Diffusionstransformator zu erstellen.

Die meisten modernen KI-gestützten Mediengeneratoren, einschließlich DALL-E 3 von OpenAI, basieren auf einem Prozess namens Diffusion, um Bilder, Videos, Sprache, Musik, 3D-Netze, Grafiken und mehr auszugeben.

Es ist nicht die intuitivste Idee, aber im Grunde wird einem Medium – beispielsweise einem Bild – langsam Rauschen hinzugefügt, bis es nicht mehr wiederzuerkennen ist. Dies wird wiederholt, um einen Datensatz verrauschter Medien zu erstellen. Wenn ein Diffusionsmodell darauf trainiert, lernt es, das Rauschen schrittweise zu subtrahieren und sich so Schritt für Schritt einem Zielausgabemedium (z. B. einem neuen Bild) zu nähern.

Diffusionsmodelle verfügen typischerweise über ein „Rückgrat“ oder eine Art Motor, ein sogenanntes U-Net. Das U-Net-Backbone lernt, das zu entfernende Rauschen abzuschätzen – und das gelingt ihm gut. Aber U-Nets sind komplex und verfügen über speziell entwickelte Module, die die Diffusionspipeline drastisch verlangsamen können.

Glücklicherweise können Transformatoren U-Nets ersetzen – und dabei für eine Effizienz- und Leistungssteigerung sorgen.

Ein von Sora erstelltes Video.

Transformatoren sind die Architektur der Wahl für komplexe Argumentationsaufgaben und unterstützen Modelle wie GPT-4, Gemini und ChatGPT. Sie haben mehrere einzigartige Eigenschaften, aber das charakteristische Merkmal von Transformatoren ist ihr „Aufmerksamkeitsmechanismus“. Für jedes Eingabedatenelement (im Fall von Diffusion, Bildrauschen) Transformatoren wiegen Ermitteln Sie die Relevanz aller anderen Eingaben (anderes Rauschen in einem Bild) und generieren Sie daraus die Ausgabe (eine Schätzung des Bildrauschens).

Der Aufmerksamkeitsmechanismus macht Transformatoren nicht nur einfacher als andere Modellarchitekturen, sondern macht die Architektur auch parallelisierbar. Mit anderen Worten: Es können immer größere Transformatormodelle mit erheblichen, aber nicht unerreichbaren Steigerungen der Rechenleistung trainiert werden.

„Was Transformatoren zum Diffusionsprozess beitragen, ähnelt einem Motor-Upgrade“, sagte Xie gegenüber Tech in einem E-Mail-Interview. „Die Einführung von Transformatoren … markiert einen bedeutenden Sprung in der Skalierbarkeit und Effektivität. Dies zeigt sich besonders deutlich bei Modellen wie Sora, die vom Training mit riesigen Videodatenmengen profitieren und umfangreiche Modellparameter nutzen, um das transformative Potenzial von Transformatoren bei maßstabsgetreuer Anwendung zu demonstrieren.“

Diffusionstransformatoren sind der Schluessel hinter Sora von OpenAI – und

Erzeugt durch stabile Diffusion 3.

Wenn man bedenkt, dass es die Idee für Diffusionstransformatoren schon seit einiger Zeit gibt, warum hat es dann Jahre gedauert, bis Projekte wie Sora und Stable Diffusion begannen, sie zu nutzen? Xie glaubt, dass die Bedeutung eines skalierbaren Backbone-Modells erst vor relativ kurzer Zeit erkannt wurde.

„Das Sora-Team hat wirklich sein Bestes gegeben, um zu zeigen, wie viel mehr man mit diesem Ansatz im großen Maßstab erreichen kann“, sagte er. „Sie haben ziemlich deutlich gemacht, dass U-Nets draußen sind Transformer stehen bevor Diffusion Modelle von nun an.“

Diffusionstransformatoren sollen Xie sagt, dass es ein einfacher Austausch für bestehende Diffusionsmodelle sein kann – unabhängig davon, ob die Modelle Bilder, Videos, Audio oder eine andere Form von Medien erzeugen. Der aktuelle Prozess des Trainings von Diffusionstransformatoren führt möglicherweise zu einigen Ineffizienzen und Leistungsverlusten, aber Xie glaubt, dass dies auf lange Sicht behoben werden kann.

„Die wichtigste Erkenntnis ist ziemlich einfach: Vergessen Sie U-Nets und wechseln Sie zu Transformer, weil sie schneller sind, besser funktionieren und skalierbarer sind“, sagte er. „Ich bin daran interessiert, die Bereiche des Verstehens und Erstellens von Inhalten im Rahmen von Diffusionstransformatoren zu integrieren. Im Moment sind dies wie zwei verschiedene Welten – eine zum Verstehen und eine andere zum Schaffen. Ich stelle mir eine Zukunft vor, in der diese Aspekte integriert werden, und ich glaube, dass das Erreichen dieser Integration die Standardisierung der zugrunde liegenden Architekturen erfordert, wobei Transformatoren ein idealer Kandidat für diesen Zweck sind.“

Wenn Sora und Stable Diffusion 3.0 eine Vorschau auf das sind, was uns bei Diffusionstransformatoren erwartet, würde ich sagen, dass uns ein wilder Ritt bevorsteht.

tch-1-tech