Sicher, KI kann Sonette schreiben und ein passables Homer-Simpson-Nirvana-Cover machen. Aber wenn irgendjemand unsere neuen Techno-Overlords willkommen heißen will, muss er zu etwas Praktischerem fähig sein – deshalb lassen Meta und Nvidia ihre Systeme alles üben, von Stifttricks bis hin zu gemeinschaftlicher Hausarbeit.
Zufälligerweise haben die beiden Technologiegiganten heute Morgen neue Forschungsergebnisse veröffentlicht, in denen es darum geht, KI-Modellen beizubringen, mit der realen Welt zu interagieren, im Wesentlichen durch den geschickten Einsatz einer simulierten Welt.
Es stellt sich heraus, dass die reale Welt nicht nur ein komplexer und chaotischer, sondern auch ein langsamer Ort ist. Agenten, die lernen, Roboter zu steuern und eine Aufgabe wie das Öffnen einer Schublade und das Einlegen von etwas hinein zu erledigen, müssen diese Aufgabe möglicherweise hunderte oder tausende Male wiederholen. Das würde Tage dauern – aber wenn man sie es in einem einigermaßen realistischen Simulakrum der realen Welt tun lässt, könnten sie in nur ein oder zwei Minuten lernen, fast genauso gute Leistungen zu erbringen.
Die Verwendung von Simulatoren ist nichts Neues, aber Nvidia hat eine zusätzliche Automatisierungsebene hinzugefügt und ein umfangreiches Sprachmodell angewendet, um beim Schreiben des Reinforcement-Learning-Codes zu helfen, der eine naive KI dabei unterstützt, eine Aufgabe besser auszuführen. Sie nennen es Evolutionsgetriebenes Universal REward Kit für Agenten oder EUREKA. (Ja, das ist weit hergeholt.)
Angenommen, Sie möchten einem Agenten beibringen, Objekte aufzunehmen und nach Farbe zu sortieren. Es gibt viele Möglichkeiten, diese Aufgabe zu definieren und zu codieren, aber einige sind möglicherweise besser als andere. Sollte ein Roboter beispielsweise weniger Bewegungen oder eine kürzere Fertigstellungszeit priorisieren? Menschen sind gut darin, diese zu kodieren, aber herauszufinden, was am besten ist, kann manchmal auf Versuch und Irrtum hinauslaufen. Das Nvidia-Team stellte fest, dass ein durch Code trainiertes LLM überraschend gut darin war und den Menschen in der Wirksamkeit der Belohnungsfunktion die meiste Zeit übertraf. Es iteriert sogar seinen eigenen Code, verbessert sich dabei und hilft ihm bei der Verallgemeinerung auf verschiedene Anwendungen.
Der beeindruckende Stifttrick oben ist nur simuliert, aber er wurde mit weitaus weniger menschlicher Zeit und Fachkenntnis erstellt, als es ohne EUREKA nötig gewesen wäre. Mithilfe dieser Technik erzielten die Agenten bei einer Reihe anderer virtueller Geschicklichkeits- und Fortbewegungsaufgaben hervorragende Leistungen. Anscheinend kann es ziemlich gut mit einer Schere umgehen, was … wahrscheinlich gut ist.
Diese Aktionen in der realen Welt zum Laufen zu bringen, ist natürlich eine andere und andere Herausforderung – die tatsächliche „Verkörperung“ von KI. Aber es ist ein klares Zeichen dafür, dass Nvidias Engagement für generative KI nicht nur ein Gerede ist.
Neue Lebensräume für zukünftige Roboterbegleiter
Auch Meta ist der verkörperten KI auf der Spur und hat heute einige Fortschritte angekündigt, beginnend mit einer neuen Version seines „Habitat“-Datensatzes. Die erste Version davon erschien bereits 2019 und bestand im Wesentlichen aus einer Reihe nahezu fotorealistischer und sorgfältig kommentierter 3D-Umgebungen, durch die ein KI-Agent navigieren konnte. Auch hier sind simulierte Umgebungen nichts Neues, aber Meta hat versucht, den Zugang und die Arbeit damit etwas einfacher zu gestalten.
Später erschien Version 2.0 mit mehr Umgebungen, die weitaus interaktiver und physisch realistischer waren. Sie hatten damit begonnen, eine Bibliothek von Objekten aufzubauen, die auch diese Umgebungen bevölkern könnten – etwas, das viele KI-Unternehmen als lohnenswert erachtet haben.
Jetzt haben wir Habitat 3.0, was die Möglichkeit hinzufügt, dass menschliche Avatare den Raum über VR teilen. Das bedeutet, dass Menschen oder Agenten, die darin geschult sind, mit dem Roboter in den Simulator einzusteigen und gleichzeitig mit ihm oder der Umgebung interagieren können.
Es klingt einfach, ist aber eine wirklich wichtige Fähigkeit. Angenommen, Sie möchten einem Roboter beibringen, das Wohnzimmer aufzuräumen, indem er Geschirr vom Couchtisch in die Küche bringt und herumliegende Kleidungsstücke in einen Wäschekorb legt. Wenn der Roboter allein ist, entwickelt er möglicherweise eine Strategie, die leicht von einer Person gestört werden kann, die in der Nähe herumläuft und vielleicht sogar einen Teil der Arbeit für ihn erledigt. Aber wenn ein Mensch oder ein menschenähnlicher Agent den Raum teilt, kann er die Aufgabe tausende Male in wenigen Sekunden erledigen und lernen, mit ihm oder um ihn herum zu arbeiten.
Sie nennen die Aufräumaufgabe „soziale Neuordnung“ und eine andere wichtige Aufgabe „soziale Navigation“. Hier muss der Roboter jemandem unauffällig folgen, um beispielsweise in Hörreichweite zu bleiben oder ihn aus Sicherheitsgründen zu beobachten – denken Sie an einen kleinen Bot, der jemanden im Krankenhaus auf die Toilette begleitet.
Eine neue Datenbank mit 3D-Innenräumen, die sie HSSD-200 nennen, verbessert auch die Wiedergabetreue der Umgebungen. Sie fanden heraus, dass das Training in rund hundert dieser Szenen mit hoher Wiedergabetreue bessere Ergebnisse lieferte als das Training in 10.000 Szenen mit niedrigerer Wiedergabetreue.
Meta sprach auch über einen neuen Robotik-Simulationsstapel, HomeRobot, für Spot und Hello Robot’s Stretch von Boston Dynamics. Sie hoffen, dass sie es den Forschern in diesem Bereich durch die Standardisierung einiger grundlegender Navigations- und Manipulationssoftware ermöglichen, sich auf übergeordnete Dinge zu konzentrieren, bei denen Innovationen warten.
Habitat und HomeRobot sind unter einer MIT-Lizenz auf ihren Github-Seiten verfügbar, und HSSD-200 steht unter einer nichtkommerziellen Creative-Commons-Lizenz – also nichts wie los, Forscher.