Roboter lernen, Aufgaben zu erledigen, indem sie sich YouTube ansehen

Lernen ist seit Jahrzehnten ein heiliger Gral in der Robotik. Wenn diese Systeme in unvorhersehbaren Umgebungen erfolgreich sein sollen, müssen sie mehr tun, als nur auf die Programmierung zu reagieren – sie müssen sich anpassen und lernen. Je mehr ich lese und mit Experten spreche, desto klarer wird mir, dass robotergestütztes Lernen tatsächlich eine Kombination vieler Lösungen erfordert.

Video ist eine faszinierende Lösung, die im Mittelpunkt vieler neuerer Arbeiten in diesem Bereich steht. Ungefähr um diese Zeit im letzten Jahr haben wir WHIRL (in-the-Wild Human Imitating Robot Learning) hervorgehoben, einen von der CMU entwickelten Algorithmus, der Robotersysteme trainieren soll, indem eine Aufzeichnung eines Menschen bei der Ausführung einer Aufgabe beobachtet wird.

Diese Woche ist Deepak Pathak, Assistenzprofessor am CMU Robotics Institute stellt VRB vor (Vision-Robotics Bridge), eine Weiterentwicklung von WHIRL. Wie beim Vorgänger verwendet das System ein Video eines Menschen, um die Aufgabe zu demonstrieren, aber das Update erfordert nicht mehr, dass dieser in einer Umgebung ausgeführt wird, die mit der identisch ist, in der der Roboter arbeiten wird.

„Wir konnten Roboter auf dem Campus herumführen und alle möglichen Aufgaben erledigen“, stellt Doktorand Shikhar Bahl in einer Erklärung fest. „Mit diesem Modell können Roboter neugierig die Welt um sich herum erkunden. Anstatt nur mit den Armen zu fuchteln, kann ein Roboter direkter mit der Art und Weise interagieren, wie er interagiert.“

Der Roboter achtet auf einige wichtige Informationen, darunter Kontaktpunkte und Flugbahn. Als Beispiel nutzt das Team das Öffnen einer Schublade. Der Kontaktpunkt ist der Griff und die Flugbahn ist die Richtung, in die er sich öffnet. „Nachdem der Roboter mehrere Videos von Menschen gesehen hat, die Schubladen öffnen“, bemerkt CMU, „kann er bestimmen, wie er jede Schublade öffnet.“

Natürlich verhalten sich nicht alle Schubladen gleich. Menschen sind ziemlich gut darin geworden, Schubladen zu öffnen, aber das bedeutet nicht, dass uns der gelegentliche, seltsam gebaute Schrank nicht Probleme bereiten wird. Einer der wichtigsten Tricks zur Verbesserung der Ergebnisse besteht darin, größere Datensätze für das Training zu erstellen. CMU verlässt sich auf Videos aus Datenbanken wie Epic Kitchens und Ego4D, wobei letztere „fast 4.000 Stunden egozentrische Videos von täglichen Aktivitäten aus der ganzen Welt“ enthält.

Bahl weist darauf hin, dass es ein riesiges Archiv potenzieller Trainingsdaten gibt, die darauf warten, angeschaut zu werden. „Wir nutzen diese Datensätze auf eine neue und andere Art und Weise“, stellt der Forscher fest. „Diese Arbeit könnte es Robotern ermöglichen, aus der riesigen Menge an verfügbaren Internet- und YouTube-Videos zu lernen.“

tch-1-tech