Eine kurze Geschichte der Verbreitung, der Technologie im Herzen moderner bilderzeugender KI • Tech

Eine kurze Geschichte der Verbreitung der Technologie im Herzen moderner

Die Text-zu-Bild-KI ist in diesem Jahr explodiert, da technische Fortschritte die Wiedergabetreue von Kunst, die KI-Systeme erstellen konnten, erheblich verbessert haben. So umstritten Systeme wie Stable Diffusion und DALL-E 2 von OpenAI sind, Plattformen wie DeviantArt und Canva haben sie übernommen, um kreative Tools zu betreiben, Branding zu personalisieren und sogar neue Produkte zu entwickeln.

Aber die Technologie im Herzen dieser Systeme kann weit mehr als Kunst erzeugen. Diffusion genannt, wird es von einigen unerschrockenen Forschungsgruppen verwendet, um Musik zu produzieren, DNA-Sequenzen zu synthetisieren und sogar neue Medikamente zu entdecken.

Was ist also Diffusion genau und warum ist sie so ein gewaltiger Sprung gegenüber dem vorherigen Stand der Technik? Gegen Ende des Jahres lohnt es sich, einen Blick auf die Ursprünge der Diffusion zu werfen und wie sie sich im Laufe der Zeit zu der einflussreichen Kraft entwickelt hat, die sie heute ist. Die Geschichte von Diffusion ist noch nicht zu Ende – mit jedem Monat werden die Techniken verfeinert – aber die letzten ein oder zwei Jahre brachten besonders bemerkenswerte Fortschritte.

Die Geburt der Diffusion

Sie erinnern sich vielleicht an den Trend von Deepfaking-Apps vor einigen Jahren – Apps, die Porträts von Personen in vorhandene Bilder und Videos eingefügt haben, um realistisch aussehende Substitutionen der ursprünglichen Motive in diesen Zielinhalten zu erstellen. Mithilfe von KI würden die Apps das Gesicht einer Person – oder in einigen Fällen ihren ganzen Körper – in eine Szene „einfügen“, oft überzeugend genug, um jemanden auf den ersten Blick zu täuschen.

Die meisten dieser Apps stützten sich auf eine KI-Technologie namens Generative Adversarial Networks, kurz GANs. GANs bestehen aus zwei Teilen: a Generator die synthetische Beispiele (z. B. Bilder) aus Zufallsdaten erzeugt und a Diskriminator das versucht, zwischen den synthetischen Beispielen und echten Beispielen aus einem Trainingsdatensatz zu unterscheiden. (Typische GAN-Trainingsdatensätze bestehen aus Hunderten bis Millionen von Beispielen für Dinge, die das GAN voraussichtlich schließlich erfassen wird.) Sowohl der Generator als auch der Diskriminator verbessern ihre jeweiligen Fähigkeiten, bis der Diskriminator die echten Beispiele nicht besser von den synthetisierten Beispielen unterscheiden kann die 50%ige Genauigkeit, die vom Zufall erwartet wird.

Sandskulpturen von Harry Potter und Hogwarts, generiert von Stable Diffusion. Bildnachweis: Stabilität KI

Leistungsstarke GANs können beispielsweise Snapshots von erstellen fiktive Mehrfamilienhäuser. StyleGAN, ein System, das Nvidia vor einigen Jahren entwickelt hat, kann hochauflösende Kopfschüsse von fiktiven Personen erzeugen, indem es Attribute wie Gesichtshaltung, Sommersprossen und Haare lernt. Über die Bilderzeugung hinaus wurden GANs auf den 3D-Modellierungsraum angewendet und Vektorskizzenwas eine Fähigkeit zum Ausgeben zeigt Videoclips ebenso gut wie Rede und sogar Schleifen von Instrumenten-Samples bei Liedern.

In der Praxis litten GANs jedoch aufgrund ihrer Architektur unter einer Reihe von Mängeln. Das gleichzeitige Training von Generator- und Diskriminatormodellen war von Natur aus instabil; Manchmal „kollabierte“ der Generator und gab viele ähnlich aussehende Samples aus. GANs benötigten auch viele Daten und Rechenleistung, um zu laufen und zu trainieren, was ihre Skalierung erschwerte.

Geben Sie die Diffusion ein.

Wie Diffusion funktioniert

Diffusion wurde von der Physik inspiriert – das ist der Prozess in der Physik, bei dem sich etwas von einer Region mit höherer Konzentration zu einer mit niedrigerer Konzentration bewegt, wie ein Zuckerwürfel, der sich in Kaffee auflöst. Zuckerkörner im Kaffee konzentrieren sich zunächst oben in der Flüssigkeit, verteilen sich aber allmählich.

Diffusionssysteme lehnen sich an die Diffusion in an Nichtgleichgewichtsthermodynamik speziell, wobei der Prozess die Entropie – oder Zufälligkeit – des Systems im Laufe der Zeit erhöht. Stellen Sie sich ein Gas vor – es breitet sich schließlich aus und füllt durch zufällige Bewegung einen ganzen Raum gleichmäßig aus. Ebenso können Daten wie Bilder durch zufälliges Hinzufügen von Rauschen in eine gleichmäßige Verteilung umgewandelt werden.

Diffusionssysteme zerstören langsam die Datenstruktur, indem sie Rauschen hinzufügen, bis nur noch Rauschen übrig ist.

In der Physik ist die Diffusion spontan und irreversibel – in Kaffee diffundierter Zucker kann nicht wieder in Würfelform gebracht werden. Diffusionssysteme im maschinellen Lernen zielen jedoch darauf ab, eine Art „umgekehrte Diffusion“ zu erlernen, um die zerstörten Daten wiederherzustellen und die Fähigkeit zu erlangen, die Daten aus Rauschen wiederherzustellen.

Stabilität AI OpenBioML

Bildnachweis: OpenBioML

Diffusionssysteme gibt es seit fast einem Jahrzehnt. Aber eine relativ neue Innovation von OpenAI namens CLIP (kurz für „Contrastive Language-Image Pre-Training“) machte sie in alltäglichen Anwendungen viel praktischer. CLIP klassifiziert Daten – zum Beispiel Bilder – um jeden Schritt des Diffusionsprozesses basierend darauf zu „bewerten“, wie wahrscheinlich es ist, dass er unter einer bestimmten Textaufforderung klassifiziert wird (z. B. „eine Skizze eines Hundes auf einem blühenden Rasen“).

Zu Beginn haben die Daten eine sehr niedrige CLIP-Wertung, da es sich hauptsächlich um Rauschen handelt. Aber während das Diffusionssystem Daten aus dem Rauschen rekonstruiert, nähert es sich langsam der Übereinstimmung mit der Eingabeaufforderung. Eine nützliche Analogie ist unbehauener Marmor – wie ein Bildhauermeister einem Neuling sagt, wo er schnitzen soll, führt CLIP das Diffusionssystem zu einem Bild, das eine höhere Punktzahl ergibt.

OpenAI führte CLIP zusammen mit dem Bilderzeugungssystem DALL-E ein. Seitdem hat es seinen Weg in den Nachfolger von DALL-E, DALL-E 2, sowie in Open-Source-Alternativen wie Stable Diffusion gefunden.

Was kann Diffusion?

Was also können CLIP-geführte Diffusionsmodelle leisten? Nun, wie bereits erwähnt, sind sie ziemlich gut darin, Kunst zu erzeugen – von fotorealistischer Kunst bis hin zu Skizzen, Zeichnungen und Gemälden im Stil praktisch aller Künstler. Tatsächlich gibt es Hinweise darauf, dass sie einige ihrer Trainingsdaten problematisch wiedergeben.

Aber das Talent der Models – so umstritten es auch sein mag – endet hier nicht.

Forscher haben auch mit der Verwendung geführter Diffusionsmodelle experimentiert, um neue Musik zu komponieren. Harmonikaeine Organisation mit finanzieller Unterstützung von Stabilität KI, das in London ansässige Startup hinter Stable Diffusion, veröffentlichte ein auf Diffusion basierendes Modell, das Musikclips ausgeben kann, indem es mit Hunderten von Stunden bestehender Songs trainiert. In jüngerer Zeit haben die Entwickler Seth Forsgren und Hayk Martiros ein Hobbyprojekt namens Riffus erstellt, das ein Diffusionsmodell verwendet, das geschickt auf Spektrogrammen – visuellen Darstellungen – von Audio trainiert wurde, um Liedchen zu erzeugen.

Jenseits des Musikbereichs versuchen mehrere Labore, Diffusionstechnologie auf die Biomedizin anzuwenden, in der Hoffnung, neue Behandlungsmethoden für Krankheiten zu entdecken. Das Startup Generate Biomedicines und ein Team der University of Washington trainierten diffusionsbasierte Modelle, um Designs für Proteine ​​mit spezifischen Eigenschaften und Funktionen zu erstellen, so MIT Tech Review gemeldet früher in diesem Monat.

Die Modelle funktionieren auf unterschiedliche Weise. „Generate Biomedicines“ fügt Lärm hinzu indem die Aminosäureketten, aus denen ein Protein besteht, entwirrt und dann zufällige Ketten zu einem neuen Protein zusammengesetzt werden, wobei die von den Forschern festgelegten Einschränkungen eingehalten werden. Das Modell der University of Washington hingegen beginnt mit einer verschlüsselten Struktur und verwendet Informationen darüber, wie die Teile eines Proteins zusammenpassen sollten, die von einem separaten KI-System bereitgestellt werden, das darauf trainiert ist, die Proteinstruktur vorherzusagen.

Eine kurze Geschichte der Verbreitung der Technologie im Herzen moderner

Bildnachweis: PASIEKA/SCIENCE PHOTO LIBRARY/Getty Images

Sie haben bereits einige Erfolge erzielt. Das von der Gruppe der University of Washington entwickelte Modell war in der Lage, ein Protein zu finden, das sich besser an das Parathormon – das Hormon, das den Kalziumspiegel im Blut steuert – binden kann als bestehende Medikamente.

In der Zwischenzeit haben Forscher bei OpenBioML, einem von Stability AI unterstützten Versuch, auf maschinellem Lernen basierende Ansätze in die Biochemie zu bringen, ein System namens DNA-Diffusion entwickelt, um zelltypspezifische regulatorische DNA-Sequenzen zu erzeugen – Segmente von Nukleinsäuremolekülen, die die Expression bestimmter Gene in einem Organismus. DNA-Diffusion wird – wenn alles nach Plan läuft – regulatorische DNA-Sequenzen aus Textanweisungen wie „Eine Sequenz, die ein Gen in Zelltyp X auf sein maximales Expressionsniveau aktiviert“ und „Eine Sequenz, die ein Gen in Leber und Herz aktiviert“ generieren , aber nicht im Gehirn.“

Was könnte die Zukunft für Diffusionsmodelle bringen? Der Himmel kann durchaus die Grenze sein. Forscher haben es bereits angewendet Videos erstellen, Bilder komprimieren und Sprache synthetisieren. Das soll nicht heißen, dass die Diffusion nicht irgendwann durch eine effizientere, leistungsfähigere Technik des maschinellen Lernens ersetzt wird, wie es bei GANs mit der Diffusion der Fall war. Aber es ist aus einem bestimmten Grund die Architektur des Tages; Diffusion ist nichts, wenn nicht vielseitig.

tch-1-tech