Unified-IO ist ein KI-System, das eine Reihe von Aufgaben erledigen kann, einschließlich der Generierung von Bildern – Tech

Unified IO ist ein KI System das eine Reihe von Aufgaben erledigen

Das Allen Institute for AI (AI2), die Abteilung innerhalb des gemeinnützigen Allen Institute, die sich auf die Forschung zum maschinellen Lernen konzentriert, hat heute ihre Arbeit an einem KI-System namens Unified-IO veröffentlicht, von dem es behauptet, es sei eines der ersten, das eine „große und vielfältige ” Reihe von KI-Aufgaben. Unified-IO kann Bilder, Text und andere strukturierte Daten verarbeiten und erstellen, eine Leistung, die das Forschungsteam dahinter als einen Schritt in Richtung des Aufbaus leistungsfähiger, einheitlicher Allzweck-KI-Systeme bezeichnet.

„Wir sind daran interessiert, aufgabenunabhängig zu bauen [AI systems]die es den Praktizierenden ermöglichen können, sich fortzubilden [machine learning] Modelle für neue Aufgaben mit wenig bis gar keinem Wissen über die zugrunde liegende Maschinerie“, sagte Jaisen Lu, ein Forschungswissenschaftler bei AI2, der an Unified-IO arbeitete, per E-Mail gegenüber Tech. „Solche einheitlichen Architekturen verringern die Notwendigkeit aufgabenspezifischer Parameter und Systemmodifikationen, können gemeinsam trainiert werden, um eine Vielzahl von Aufgaben auszuführen, und können Wissen über Aufgaben hinweg teilen, um die Leistung zu steigern.“

Die frühen Bemühungen von AI2 beim Aufbau einheitlicher KI-Systeme führten zu GPV-1 und GPV-2, zwei Allzweck-„Vision-Language“-Systemen, die eine Handvoll Workloads unterstützten, darunter das Beschriften von Bildern und das Beantworten von Fragen. Laut Lu musste Unified-IO zurück zum Reißbrett und von Grund auf ein neues Modell entwerfen.

Unified-IO teilt Eigenschaften mit OpenAIs GPT-3 in dem Sinne, dass es ein „Transformer“ ist. Seit 2017 ist der Transformer zur Architektur der Wahl für komplexe Denkaufgaben geworden und hat gezeigt, dass er in der Lage ist, Dokumente zusammenzufassen, Musik zu erzeugen, Objekte in Bildern zu klassifizieren und Proteinsequenzen zu analysieren.

Wie alle KI-Systeme hat Unified-IO durch Beispiele gelernt und Milliarden von Wörtern, Bildern und mehr in Form von Token aufgenommen. Diese Token dienten dazu, Daten so darzustellen, wie Unified-IO sie verstehen konnte.

Unified-IO

Unified-IO kann anhand einer kurzen Beschreibung Bilder generieren. Bildnachweis: Unified-IO

„Die Gemeinschaft zur Verarbeitung natürlicher Sprache (NLP) war sehr erfolgreich beim Aufbau einer Vereinheitlichung [AI systems] die viele verschiedene Aufgaben unterstützen, da viele NLP-Aufgaben homogen dargestellt werden können – Wörter als Input und Wörter als Output. Aber die Art und Vielfalt von Computer-Vision-Aufgaben hat dazu geführt, dass Multitasking-Modelle in der Vergangenheit auf eine kleine Gruppe von Aufgaben beschränkt waren, und meistens auf Aufgaben, die Sprachausgaben erzeugen (eine Frage beantworten, ein Bild beschriften usw.)“, Chris Clark , der mit Lu an Unified-IO bei AI2 zusammengearbeitet hat, teilte Tech in einer E-Mail mit. „Unified-IO zeigt, dass wir durch die Umwandlung einer Reihe unterschiedlicher strukturierter Ausgaben wie Bilder, Binärmasken, Begrenzungsrahmen, Sätze von Schlüsselpunkten, Graustufenkarten und mehr in homogene Sequenzen von Token eine Vielzahl klassischer Computer-Vision-Aufgaben sehr ähnlich modellieren können wie wir Aufgaben in NLP modellieren.“

Im Gegensatz zu einigen Systemen kann Unified-IO keine Videos und Audios analysieren oder erstellen – eine Einschränkung des Modells „aus der Perspektive der Modalität“, erklärte Clark. Aber unter den Aufgaben Unified-IO kann vollständig sind, Bilder zu erzeugen, Objekte in Bildern zu erkennen, Tiefe zu schätzen, Dokumente zu paraphrasieren und bestimmte Bereiche in Fotos hervorzuheben.

„Dies hat enorme Auswirkungen auf die Computervision, da sie beginnt, so unterschiedliche Modalitäten wie Bilder, Masken, Sprache und Begrenzungsrahmen als einfache Sequenzen von Token zu behandeln – ähnlich wie Sprache.“ Clark fügte hinzu. „Darüber hinaus kann eine Vereinheitlichung in dieser Größenordnung jetzt die Türen zu neuen Wegen in der Computervision öffnen, wie massives einheitliches Vortraining, Wissenstransfer über Aufgaben hinweg, Lernen in wenigen Schüssen und mehr.“

Matthew Guzdial, Assistenzprofessor für Informatik an der University of Alberta, der nicht an der Forschung von AI2 beteiligt war, zögerte, Unified-IO als Durchbruch zu bezeichnen. Er stellte fest, dass das System mit DeepMinds kürzlich detailliertem Gato vergleichbar ist, einem einzigen Modell, das über 600 Aufgaben ausführen kann, vom Spielen bis zum Steuern von Robotern.

„Der Unterschied [between Unified-IO and Gato] ist offensichtlich, dass es sich um eine andere Reihe von Aufgaben handelt, aber auch, dass diese Aufgaben größtenteils viel besser verwendbar sind. Damit meine ich, dass es klare, aktuelle Anwendungsfälle für die Dinge gibt, die dieses Unified-IO-Netzwerk tun kann, während Gato hauptsächlich nur Spiele spielen könnte. Dies macht es wahrscheinlicher, dass Unified-IO oder ein ähnliches Modell das Leben der Menschen in Bezug auf potenzielle Produkte und Dienstleistungen tatsächlich beeinflussen wird“, sagte Guzdial. „Meine einzige Sorge ist, dass die Demo zwar auffällig ist, aber keine Vorstellung davon gibt, wie gut sie bei diesen Aufgaben im Vergleich zu Modellen ist, die für diese einzelnen Aufgaben separat trainiert wurden. Angesichts der Tatsache, dass Gato die für die einzelnen Aufgaben trainierten Modelle unterdurchschnittlich abschneidet, gehe ich davon aus, dass dies auch hier der Fall sein wird.“

Unified-IO

Unified-IO kann auch Bilder segmentieren, selbst bei herausfordernder Beleuchtung. Bildnachweis: Unified-IO

Dennoch sehen die AI2-Forscher Unified-IO als starke Grundlage für die zukünftige Arbeit. Sie planen, die Effizienz des Systems zu verbessern, indem sie Unterstützung für mehr Modalitäten wie Audio und Video hinzufügen und es skalieren, um die Leistung zu verbessern.

„Jüngste Arbeiten wie Imagen und DALL-E 2 haben gezeigt, dass bei genügend Trainingsdaten Modelle … trainiert werden können, um sehr beeindruckende Ergebnisse zu erzielen. Diese Modelle unterstützen jedoch nur eine Aufgabe“, sagte Clark. „Unified-IO kann uns in die Lage versetzen, massive Multitasking-Modelle zu trainieren. Unsere Hypothese ist, dass eine enorme Skalierung der Daten und der Modellgröße zu weitaus besseren Ergebnissen führen wird.“

tch-1-tech