Beobachten Sie, wie ein Roboter mithilfe von Gemini durch die Büros von Google DeepMind navigiert

Beobachten Sie wie ein Roboter mithilfe von Gemini durch die

Generative KI hat bei Robotern bereits viel Potenzial gezeigt. Zu den Anwendungsgebieten zählen natürliche Sprachinteraktionen, Roboterlernen, No-Code-Programmierung und sogar Design. Googles DeepMind Robotics-Team präsentiert diese Woche einen weiteren potenziellen Sweet Spot zwischen den beiden Disziplinen: die Navigation.

In einem Artikel mit dem Titel „Mobility VLA: Multimodale Anweisungsnavigation mit Long-Context-VLMs und topologischen Graphen“, Das Team demonstriert, wie es Google Gemini 1.5 Pro implementiert hat, um einem Roboter beizubringen, auf Befehle zu reagieren und sich in einem Büro zurechtzufinden. Natürlich hat DeepMind einige der Alltagsroboter verwendet, die noch herumliegen, seit Google das Projekt im Zuge der Massenentlassungen im letzten Jahr eingestellt hat.

In einer Reihe von Videos, die dem Projekt beigefügt sind, beginnen die Mitarbeiter von DeepMind mit einem „OK, Robot“ im Stil eines intelligenten Assistenten, bevor sie das System auffordern, verschiedene Aufgaben in den 836 Quadratmetern großen Büroräumen auszuführen.

Bildnachweise: Google DeepMind

In einem Beispiel bittet ein Google-Mitarbeiter den Roboter, ihn irgendwohin zu bringen, um Dinge zu zeichnen. „OK“, antwortet der Roboter mit einer flotten gelben Fliege, „geben Sie mir eine Minute. Mit Gemini nachdenken …“ Dann führt der Roboter den Menschen zu einer wandgroßen weißen Tafel. In einem zweiten Video fordert eine andere Person den Roboter auf, den Anweisungen auf der Tafel zu folgen.

Eine einfache Karte zeigt dem Roboter, wie er zum „blauen Bereich“ kommt. Wieder denkt der Roboter einen Moment nach, bevor er einen langen Weg zu einem Bereich nimmt, der sich als Robotertestbereich herausstellt. „Ich habe die Anweisungen auf der Tafel erfolgreich befolgt“, verkündet der Roboter mit einem Maß an Selbstvertrauen, von dem die meisten Menschen nur träumen können.

Vor diesen Videos wurden die Roboter mit dem Raum vertraut gemacht, indem das Team „Multimodal Instruction Navigation with demonstration Tours (MINT)“ verwendete. Das bedeutet, dass der Roboter durch das Büro geführt wird, während er mit Sprache auf verschiedene Orientierungspunkte hingewiesen wird. Als nächstes nutzt das Team hierarchisches Vision-Language-Action (VLA), um „diese Kombination zu[e] das Verständnis für die Umgebung und die Fähigkeit zum gesunden Menschenverstand.“ Sobald die Prozesse kombiniert sind, kann der Roboter auf geschriebene und gezeichnete Befehle sowie auf Gesten reagieren.

1720751373 442 Beobachten Sie wie ein Roboter mithilfe von Gemini durch die
Bildnachweise: Google DeepMind

Laut Google lag die Erfolgsquote des Roboters bei über 50 Interaktionen mit Mitarbeitern bei rund 90 %.

tch-1-tech