Agility nutzt große Sprachmodelle, um mit seinen humanoiden Robotern zu kommunizieren

Ich habe einen Großteil des letzten Jahres damit verbracht, mit Robotikexperten über generative KI und große Sprachmodelle zu diskutieren. Es wird immer deutlicher, dass diese Art von Technologien darauf vorbereitet sind, die Art und Weise, wie Roboter kommunizieren, lernen, aussehen und programmiert werden, zu revolutionieren.

Dementsprechend erforschen zahlreiche Spitzenuniversitäten, Forschungslabore und Unternehmen die besten Methoden zur Nutzung dieser Plattformen für künstliche Intelligenz. Das gut finanzierte, in Oregon ansässige Startup Agility experimentiert bereits seit einiger Zeit mit der Technologie und nutzt dabei seinen zweibeinigen Roboter Digit.

Heute stellt das Unternehmen einige dieser Arbeiten in einem kurzen Video vor, das über seine sozialen Kanäle geteilt wird.

„[W]„Wir waren gespannt, was durch die Integration dieser Technologie in Digit erreicht werden kann“, stellt das Unternehmen fest. „Durch eine physische Verkörperung künstlicher Intelligenz wurde ein Demoraum mit einer Reihe nummerierter Türme unterschiedlicher Höhe sowie drei Boxen mit mehreren definierenden Merkmalen geschaffen. Digit erhielt Informationen über diese Umgebung, aber keine spezifischen Informationen über seine Aufgaben, sondern nur Befehle in natürlicher Sprache unterschiedlicher Komplexität, um zu sehen, ob es diese ausführen kann.“

Im Videobeispiel wird Digit aufgefordert, eine Kiste in der Farbe von „Darth Vaders Lichtschwert“ aufzuheben und zum höchsten Turm zu bewegen. Der Prozess erfolgt nicht augenblicklich, sondern eher langsam und bewusst, wie man es von einer frühen Demo erwarten könnte. Der Roboter führt die Aufgabe jedoch wie beschrieben aus.

Agility stellt fest: „Unser Innovationsteam hat diese interaktive Demo entwickelt, um zu zeigen, wie LLMs unsere Roboter vielseitiger und schneller einsetzbar machen können.“ Die Demo ermöglicht es den Menschen, in natürlicher Sprache mit Digit zu sprechen und es aufzufordern, Aufgaben zu erledigen, was einen Blick in die Zukunft gibt.“


Möchten Sie jede Woche die Top-Robotik-Neuigkeiten in Ihrem Posteingang haben? Melden Sie sich hier für Actuator an.


Die Kommunikation in natürlicher Sprache ist neben der Möglichkeit, Systeme über Low- und No-Code-Technologien zu programmieren, eine wichtige potenzielle Anwendung dieser Technologie.

Während meines Disrupt-Panels beschrieb Gill Pratt, wie das Toyota Research Institute generative KI nutzt, um das Lernen von Robotern zu beschleunigen:

Wir haben herausgefunden, wie man etwas macht, nämlich moderne generative KI-Techniken zu nutzen, die es dem Menschen ermöglichen, sowohl Position als auch Kraft zu demonstrieren, um einem Roboter im Wesentlichen anhand von nur wenigen Beispielen etwas beizubringen. Der Code wird überhaupt nicht geändert. Grundlage hierfür ist die sogenannte Diffusionspolitik. Es ist eine Arbeit, die wir in Zusammenarbeit mit Columbia und MIT durchgeführt haben. Bisher haben wir 60 verschiedene Fertigkeiten vermittelt.

Auch Daniela Rus vom MIT CSAIL sagte mir kürzlich: „Es stellt sich heraus, dass generative KI sehr leistungsfähig sein kann, um sogar Probleme bei der Bewegungsplanung zu lösen.“ Sie können viel schnellere Lösungen und viel flüssigere und menschenähnlichere Lösungen für die Steuerung erhalten als mit modellprädiktiven Lösungen. Ich denke, das ist sehr wirkungsvoll, denn die Roboter der Zukunft werden viel weniger robotisiert sein. Ihre Bewegungen werden viel flüssiger und menschenähnlicher sein.“

Die potenziellen Anwendungen sind hier breit gefächert und spannend – und Digit scheint als fortschrittliches, kommerziell erhältliches Robotersystem, das in Amazon-Versandzentren und anderen realen Standorten getestet wird, ein erstklassiger Kandidat zu sein. Wenn Robotik mit Menschen zusammenarbeiten soll, müssen sie auch lernen, auf sie zu hören.

tch-1-tech