Google skizziert neue Methoden zum Training von Robotern mit Video- und großen Sprachmodellen

2024 wird ein großes Jahr für den Querschnitt von generativer KI/großen Basismodellen und Robotik sein. Es herrscht große Begeisterung über das Potenzial für verschiedene Anwendungen, die vom Lernen bis zum Produktdesign reichen. Die DeepMind Robotics-Forscher von Google sind eines von mehreren Teams, die das Potenzial des Weltraums erforschen. In ein Blogbeitrag Heute stellt das Team laufende Forschungsarbeiten vor, die der Robotik ein besseres Verständnis dafür vermitteln sollen, was genau wir Menschen von ihnen erwarten.

Traditionell konzentrieren sich Roboter im Laufe ihres Lebens darauf, immer wieder eine einzelne Aufgabe zu erledigen. Einzweckroboter sind in dieser einen Sache in der Regel sehr gut, aber selbst sie geraten in Schwierigkeiten, wenn unbeabsichtigt Änderungen oder Fehler in den Ablauf eingebracht werden.

Das neu angekündigte AutoRT ist darauf ausgelegt, große Grundmodelle für verschiedene Zwecke nutzbar zu machen. In einem Standardbeispiel des DeepMind-Teams nutzt das System zunächst ein Visual Language Model (VLM) für ein besseres Situationsbewusstsein. AutoRT ist in der Lage, eine Flotte von Robotern zu verwalten, die im Tandem arbeiten und mit Kameras ausgestattet sind, um ein Layout ihrer Umgebung und des darin befindlichen Objekts zu erstellen.

Ein umfangreiches Sprachmodell schlägt inzwischen Aufgaben vor, die von der Hardware, einschließlich ihres Endeffektors, ausgeführt werden können. Viele glauben, dass LLMs der Schlüssel zur Erschließung der Robotik sind, die Befehle in natürlicher Sprache effektiver versteht und so den Bedarf an Hard-Coding-Kenntnissen verringert.

Das System wurde in den letzten rund sieben Monaten bereits ausführlich getestet. AutoRT ist in der Lage, bis zu 20 Roboter gleichzeitig und insgesamt 52 verschiedene Geräte zu orchestrieren. Insgesamt hat DeepMind rund 77.000 Versuche gesammelt, darunter mehr als 6.000 Aufgaben.

Ebenfalls neu im Team ist RT-Trajectory, das Videoeingaben für robotergestütztes Lernen nutzt. Viele Teams erforschen die Verwendung von YouTube-Videos als Methode zum Trainieren von Robotern im großen Maßstab, aber RT-Trajectory fügt eine interessante Ebene hinzu, indem es eine zweidimensionale Skizze des Arms in Aktion über das Video legt.

Das Team stellt fest: „Diese Trajektorien in Form von RGB-Bildern liefern dem Modell auf niedriger Ebene praktische visuelle Hinweise, während es seine Robotersteuerungsrichtlinien lernt.“

Laut DeepMind war die Erfolgsquote des Trainings mit 63 % im Vergleich zu 29 % doppelt so hoch wie beim RT-2-Training, während 41 Aufgaben getestet wurden.

„RT-Trajectory nutzt die umfangreichen Roboterbewegungsinformationen, die in allen Roboterdatensätzen vorhanden sind, aber derzeit nicht ausreichend genutzt werden“, stellt das Team fest. „RT-Trajectory stellt nicht nur einen weiteren Schritt auf dem Weg zum Bau von Robotern dar, die sich in neuartigen Situationen mit effizienter Genauigkeit bewegen können, sondern auch die Erschließung von Wissen aus vorhandenen Datensätzen.“

tch-1-tech