Das neue KI-Modell von Google wird Robotern beibringen, Müll wegzuwerfen

Google hat ein KI-Modell eingeführt, das Robotern beibringen kann, allgemeine Ideen und Konzepte zu erlernen, beispielsweise das Herausbringen von Müll. Es heißt Robotics Transformer 2 oder RT-2 und ist das erste Vision-Language-Action-Modell (VLA) seiner Art, das anhand von Texten und Bildern aus dem Internet trainiert werden kann. So wie große Sprachmodelle (LLMs) anhand von Texten aus dem Internet trainiert werden, um allgemeine Ideen und Konzepte zu lernen, übersetzt RT-2 Wissen in Roboterverhalten. „Mit anderen Worten, RT-2 kann Roboter sprechen“, sagte Google.

Wie sich dieses Modell von der Chatbot-Technologie unterscheidet
Im Gegensatz zu Chatbots müssen Roboter in der Lage sein, komplexe, abstrakte Aufgaben in sehr variablen Umgebungen zu bewältigen – insbesondere in solchen, die sie noch nie zuvor gesehen haben. Im Gegensatz zu Chatbots müssen Roboter in der realen Welt „geerdet“ (oder trainiert) werden, um ihre Fähigkeiten zu verbessern.

Lesen Sie auch

„Bei ihrer Ausbildung geht es nicht nur darum, beispielsweise alles zu lernen, was man über einen Apfel wissen muss: wie er wächst, welche physikalischen Eigenschaften er hat oder sogar, dass einer angeblich auf Sir Isaac Newtons Kopf gelandet ist. Ein Roboter muss in der Lage sein, einen zu erkennen Wir müssen einen Apfel im Kontext erkennen, ihn von einer roten Kugel unterscheiden, verstehen, wie er aussieht, und vor allem wissen, wie man ihn aufnimmt“, hieß es.Dafür mussten Roboter aus erster Hand anhand von Milliarden von Datenpunkten für jedes einzelne Objekt, jede Umgebung, jede Aufgabe und jede Situation in der physischen Welt trainiert werden. Eine solche Schulung ist zeitaufwändig und kostspielig, was sie für Innovatoren praktisch unpraktisch macht.

Lesen Sie auch

Beim Testen von RT-2-Modellen in mehr als 6.000 Roboterversuchen zeigte es verbesserte Generalisierungsfähigkeiten sowie ein besseres semantisches und visuelles Verständnis über die Roboterdaten hinaus, denen es ausgesetzt war, sagte Google DeepMind, der KI-Zweig des Unternehmens.„Dazu gehört die Interpretation neuer Befehle und die Reaktion auf Benutzerbefehle durch die Durchführung rudimentärer Überlegungen, wie z. B. Überlegungen zu Objektkategorien oder Beschreibungen auf hoher Ebene“, fügte er hinzu.



Ende des Artikels

gn-tech