Der Robotikschwerpunkt von Google DeepMind liegt auf Allzweckrobotern, generativer KI und Büro-WLAN

Der Robotikschwerpunkt von Google DeepMind liegt auf Allzweckrobotern generativer KI

[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]

Anfang dieses Monats stellte das DeepMind-Team von Google Open X-Embodiment vor, eine Datenbank mit Robotikfunktionen, die in Zusammenarbeit mit 33 Forschungsinstituten erstellt wurde. Die beteiligten Forscher verglichen das System mit ImageNet, der 2009 gegründeten wegweisenden Datenbank, die mittlerweile mehr als 14 Millionen Bilder enthält.

„So wie ImageNet die Computer-Vision-Forschung vorangetrieben hat, glauben wir, dass Open „Der Aufbau eines Datensatzes verschiedener Roboterdemonstrationen ist der entscheidende Schritt zum Trainieren eines generalistischen Modells, das viele verschiedene Arten von Robotern steuern, vielfältigen Anweisungen folgen, grundlegende Überlegungen zu komplexen Aufgaben anstellen und effektiv verallgemeinern kann.“

Zum Zeitpunkt der Ankündigung enthielt Open Nicht ganz die ImageNet-Zahlen, aber es ist ein guter Anfang. DeepMind trainierte dann sein RT-1-X-Modell anhand der Daten und nutzte sie zum Trainieren von Robotern in anderen Labors. Dabei wurde eine Erfolgsquote von 50 % im Vergleich zu den von den Teams entwickelten internen Methoden gemeldet.

Ich habe das auf diesen Seiten wahrscheinlich schon Dutzende Male wiederholt, aber es ist wirklich eine aufregende Zeit für robotergestütztes Lernen. Ich habe mit so vielen Teams gesprochen, die das Problem aus unterschiedlichen Blickwinkeln und mit immer größerer Effizienz angehen. Die Herrschaft des maßgeschneiderten Roboters ist noch lange nicht vorbei, aber es fühlt sich auf jeden Fall so an, als würden wir Einblicke in eine Welt erhaschen, in der der Allzweckroboter eine eindeutige Möglichkeit darstellt.

Simulation wird neben KI (einschließlich der generativen Variante) zweifellos ein wichtiger Teil der Gleichung sein. Es fühlt sich immer noch so an, als hätten einige Firmen hier das Pferd vor den Wagen gespannt, wenn es um den Bau von Hardware für allgemeine Aufgaben geht, aber wer weiß?

Vincent Vanhoucke ist jemand, den ich schon seit einiger Zeit festzumachen versuche. Wenn ich verfügbar war, war er es nicht. Schiffe in der Nacht und so. Zum Glück konnten wir es Ende letzter Woche endlich zum Laufen bringen.

Vanhoucke ist neu in der Rolle des Leiters für Robotik bei Google DeepMind, nachdem er die Rolle bereits im Mai übernommen hat. Er ist jedoch seit mehr als 16 Jahren im Unternehmen tätig und war zuletzt als angesehener Wissenschaftler für Google AI Robotics tätig. Alles in allem ist er möglicherweise der beste Ansprechpartner für Googles Roboterambitionen und wie sie dazu kamen.

Bildnachweis: Google

Zu welchem ​​Zeitpunkt in der Geschichte von DeepMind entwickelte sich das Robotik-Team?

Ich war ursprünglich nicht auf der DeepMind-Seite des Zauns. Ich war Teil von Google Research. Wir haben uns kürzlich mit den DeepMind-Bemühungen zusammengeschlossen. In gewisser Weise ist meine Beschäftigung mit DeepMind also erst seit sehr kurzer Zeit. Bei Google DeepMind gibt es jedoch eine längere Geschichte der Robotikforschung. Es begann mit der zunehmenden Ansicht, dass die Wahrnehmungstechnologie wirklich, wirklich gut wurde.

Ein Großteil der Computer-Vision, der Audioverarbeitung und all dem Zeug hat wirklich eine Wende genommen und ist fast auf menschlicher Ebene geworden. Wir beginnen uns zu fragen: „Okay, wenn wir davon ausgehen, dass das in den nächsten Jahren so weitergeht, welche Konsequenzen hat das dann?“ Eine klare Konsequenz war, dass es plötzlich eine reale Möglichkeit sein würde, Robotik in einer realen Umgebung einzusetzen. Die Fähigkeit, sich in einer alltäglichen Umgebung tatsächlich weiterzuentwickeln und Aufgaben auszuführen, hing ausschließlich von einer wirklich sehr ausgeprägten Wahrnehmung ab. Ich habe mich zunächst mit allgemeiner KI und Computer Vision beschäftigt. Ich habe in der Vergangenheit auch an der Spracherkennung gearbeitet. Ich sah die Zeichen an der Wand und beschloss, den Einsatz von Robotik als nächste Stufe unserer Forschung in Angriff zu nehmen.

Soweit ich weiß, landeten viele Mitglieder des Everyday Robots-Teams in diesem Team. Die Geschichte von Google mit Robotik reicht viel weiter zurück. Es ist 10 Jahre her, seit Alphabet all diese Übernahmen getätigt hat [Boston Dynamics, etc.]. Es scheint, als hätten viele Leute aus diesen Unternehmen das bestehende Robotik-Team von Google verstärkt.

Ein erheblicher Teil des Teams ist durch diese Übernahmen entstanden. Das war vor meiner Zeit – ich beschäftigte mich wirklich mit Computer Vision und Spracherkennung, aber wir haben immer noch viele dieser Leute. Immer mehr kamen wir zu dem Schluss, dass das gesamte Robotikproblem durch das allgemeine KI-Problem subsumiert wurde. Die wirkliche Lösung des Intelligenzteils war der Schlüsselfaktor für jeden sinnvollen Prozess in der realen Robotik. Wir haben einen Großteil unserer Bemühungen auf die Lösung dieses großen Problems konzentriert, das es zu lösen gilt: Wahrnehmung, Verständnis und Kontrolle im Kontext der allgemeinen KI.

Es schien, als ob sich ein Großteil der Arbeit von Everyday Robots auf allgemeine KI oder generative KI bezog. Wird die Arbeit dieses Teams auf das DeepMind-Robotikteam übertragen?

Wir arbeiten bereits seit, ich möchte sagen, sieben Jahren mit Everyday Robots zusammen. Obwohl wir zwei getrennte Teams waren, haben wir sehr, sehr tiefe Verbindungen. Tatsächlich war eines der Dinge, die uns damals dazu veranlassten, uns wirklich mit der Robotik zu befassen, eine Zusammenarbeit mit dem Everyday Robots-Team, die so etwas wie ein Skunkworks-Projekt war, bei dem sie zufällig eine Reihe von Roboterarmen herumliegen hatten wurde eingestellt. Es handelte sich um eine Waffengeneration, die zu einer neuen Generation geführt hatte, und sie lagen einfach herum und taten nichts.

Wir beschlossen, dass es Spaß machen würde, diese Arme aufzuheben, sie alle in einen Raum zu stellen und sie üben und lernen zu lassen, wie man Gegenstände greift. Die bloße Vorstellung, ein Greifproblem zu lernen, entsprach damals nicht dem Zeitgeist. Die Idee, maschinelles Lernen und Wahrnehmung zur Steuerung des Greifens von Robotern zu nutzen, war noch nicht erforscht. Wenn die Waffen erfolgreich waren, gaben wir ihnen eine Belohnung, und wenn sie versagten, gaben wir ihnen ein „Daumen nach unten“.

Zum ersten Mal haben wir maschinelles Lernen eingesetzt und dieses Problem des allgemeinen Erfassens im Wesentlichen mithilfe von maschinellem Lernen und KI gelöst. Das war damals ein Aha-Moment. Da war wirklich etwas Neues. Dies löste die beiden Untersuchungen mit Everyday Robots aus, die sich auf maschinelles Lernen als Möglichkeit zur Steuerung dieser Roboter konzentrierten. Und auf der Forschungsseite wird auch viel mehr Robotik als interessantes Problem vorangetrieben, um all die Deep-Learning-KI-Techniken anzuwenden, die wir so gut in anderen Bereichen einsetzen konnten.

DeepMind verkörperte KI

Bildnachweis: DeepMind

Wurde Everyday Robots von Ihrem Team übernommen?

Ein Bruchteil des Teams wurde von meinem Team absorbiert. Wir haben ihre Roboter geerbt und verwenden sie immer noch. Bis heute entwickeln wir die Technologie weiter, die sie wirklich entwickelt haben und an der wir gearbeitet haben. Der gesamte Impuls lebt mit einem etwas anderen Fokus weiter, als ursprünglich vom Team vorgesehen. Wir konzentrieren uns wirklich viel mehr auf die Intelligenz als auf den Roboterbau.

Sie haben erwähnt, dass das Team in die Büros von Alphabet X umgezogen ist. Gibt es da etwas Tieferes, was die teamübergreifende Zusammenarbeit und den Austausch von Ressourcen betrifft?

Es ist eine sehr pragmatische Entscheidung. Sie verfügen über gutes WLAN, gute Stromversorgung und viel Platz.

Ich würde mir wünschen, dass alle Google-Gebäude über gutes WLAN verfügen.

Das würde man hoffen, oder? Aber es war eine sehr einfache Entscheidung, hierher zu ziehen. Ich muss sagen, ein großer Teil der Entscheidung war, dass es hier ein gutes Café gibt. In unserem vorherigen Büro gab es nicht so gutes Essen und die Leute begannen sich zu beschweren. Da gibt es keine versteckte Agenda. Wir arbeiten gerne eng mit dem Rest von X zusammen. Ich denke, da gibt es viele Synergien. Sie haben wirklich talentierte Robotiker, die an einer Reihe von Projekten arbeiten. Wir haben Kooperationen mit Intrinsic, die wir gerne pflegen. Es macht für uns sehr viel Sinn, hier zu sein, und es ist ein wunderschönes Gebäude.

Es gibt ein paar Überschneidungen mit Intrinsic, wenn es darum geht, was sie mit ihrer Plattform machen – Dinge wie No-Code-Robotik und Robotik-Lernen. Sie überschneiden sich mit allgemeiner und generativer KI.

Es ist interessant, wie sich die Robotik in jeder Hinsicht weiterentwickelt hat, da sie sehr individuell ist und ein ganz anderes Spektrum an Fachwissen und Fähigkeiten annimmt. Die Reise, auf der wir uns befinden, besteht zu einem großen Teil darin, zu versuchen, Allzweckrobotik umzusetzen, unabhängig davon, ob sie in einer industriellen Umgebung oder eher in einer häuslichen Umgebung eingesetzt wird. Die Prinzipien dahinter, angetrieben von einem sehr starken KI-Kern, sind sehr ähnlich. Wir gehen wirklich bis an die Grenzen und versuchen herauszufinden, wie wir einen möglichst breiten Anwendungsbereich unterstützen können. Das ist neu und aufregend. Es ist sehr Greenfield. In diesem Raum gibt es viel zu entdecken.

Ich frage die Leute gerne, wie weit wir ihrer Meinung nach von etwas entfernt sind, das wir vernünftigerweise als Allzweckrobotik bezeichnen können.

Es gibt eine leichte Nuance bei der Definition von Allzweckrobotik. Wir konzentrieren uns wirklich auf Allzweckmethoden. Einige Methoden können sowohl auf Industrie- als auch auf Heimroboter oder Straßenroboter mit all diesen unterschiedlichen Ausführungsformen und Formfaktoren angewendet werden. Wir gehen nicht davon aus, dass es eine Allzweck-Verkörperung gibt, die alles für Sie erledigt, sondern vielmehr davon, dass Sie eine Verkörperung haben, die ganz auf Ihr Problem zugeschnitten ist. Das ist gut. Wir können es schnell auf die Lösung Ihres konkreten Problems abstimmen. Das ist also eine große Frage: Wird es Allzweckroboter geben? Viele Leute stellen Hypothesen darüber auf, ob und wann es passieren wird.

Bisher gab es mehr Erfolg mit maßgeschneiderten Robotern. Ich denke, bis zu einem gewissen Grad ist die Technologie nicht vorhanden, um die Entwicklung universellerer Roboter zu ermöglichen. Ob uns der Geschäftsmodus dorthin führt, ist eine sehr gute Frage. Ich glaube nicht, dass diese Frage beantwortet werden kann, bis wir mehr Vertrauen in die Technologie dahinter haben. Das ist es, was wir gerade vorantreiben. Wir sehen mehr Lebenszeichen – dass sehr allgemeine Ansätze, die nicht von einer bestimmten Verkörperung abhängen, plausibel sind. Das Neueste, was wir gemacht haben, ist dieses RTX-Projekt. Wir gingen zu mehreren akademischen Laboren – ich glaube, wir haben mittlerweile 30 verschiedene Partner – und baten darum, sich ihre Aufgabe und die gesammelten Daten anzusehen. Lassen Sie uns das in ein gemeinsames Datenrepository übertragen, darauf ein großes Modell trainieren und sehen, was passiert.

DeepMind RoboCat

Bildnachweis: DeepMind

Welche Rolle wird generative KI in der Robotik spielen?

Ich denke, es wird sehr zentral sein. Es gab diese große Revolution des Sprachmodells. Alle begannen zu fragen, ob wir viele Sprachmodelle für Roboter verwenden können, und ich denke, das könnte sehr oberflächlich gewesen sein. Wissen Sie: „Lassen Sie uns einfach die Modeerscheinung des Tages aufgreifen und herausfinden, was wir damit machen können“, aber es hat sich als äußerst tiefgreifend herausgestellt. Der Grund dafür ist, dass es bei Sprachmodellen, wenn man darüber nachdenkt, nicht wirklich um Sprache geht. Es geht um gesundes Denken und das Verstehen der Alltagswelt. Wenn also ein großes Sprachmodell weiß, dass Sie nach einer Tasse Kaffee suchen, können Sie diese wahrscheinlich in einem Schrank in der Küche oder auf einem Tisch finden.

Es macht Sinn, eine Kaffeetasse auf den Tisch zu stellen. Einen Tisch auf eine Kaffeetasse zu stellen ist Unsinn. Es sind solche einfachen Tatsachen, über die man nicht wirklich nachdenkt, weil sie für einen völlig offensichtlich sind. Es war schon immer sehr schwierig, dies einem verkörperten System mitzuteilen. Das Wissen ist wirklich sehr, sehr schwer zu kodieren, während diese großen Sprachmodelle über dieses Wissen verfügen und es auf eine Weise kodieren, die sehr zugänglich und für uns nutzbar ist. Wir konnten diese vernünftige Argumentation auf die Roboterplanung übertragen. Wir konnten es auf Roboterinteraktionen, Manipulationen und Mensch-Roboter-Interaktionen anwenden und einen Agenten zu haben, der über diesen gesunden Menschenverstand verfügt und über Dinge in einer simulierten Umgebung nachdenken kann, zusammen mit der Wahrnehmung, die wirklich von zentraler Bedeutung für das Robotikproblem ist.

DeepMind Gato

Die verschiedenen Aufgaben, die Gato zu erledigen gelernt hat.

Simulation ist wahrscheinlich ein wichtiger Teil der Datenerfassung für die Analyse.

Ja. Es ist eine Zutat dazu. Die Herausforderung bei der Simulation besteht darin, dass Sie die Lücke zwischen Simulation und Realität schließen müssen. Simulationen sind eine Annäherung an die Realität. Es kann sehr schwierig sein, die Realität sehr genau und sehr genau widerzuspiegeln. Die Physik eines Simulators muss gut sein. Die visuelle Darstellung der Realität in dieser Simulation muss sehr gut sein. Dies ist tatsächlich ein weiterer Bereich, in dem generative KI beginnt, sich durchzusetzen. Sie können sich vorstellen, dass Sie, anstatt tatsächlich einen Physiksimulator ausführen zu müssen, einfach mithilfe der Bildgenerierung oder eines generativen Modells generieren.

Tye Brady erzählte mir kürzlich, dass Amazon Simulationen zum Generieren von Paketen verwendet.

Das macht sehr viel Sinn. Und ich denke, dass man sich in Zukunft nicht nur die Generierung von Vermögenswerten, sondern auch die Generierung von Zukunftsgeschäften vorstellen kann. Stellen Sie sich vor, was passieren würde, wenn der Roboter eine Aktion ausführen würde? Und überprüfen Sie, ob es tatsächlich das tut, was Sie wollten, und nutzen Sie dies als Möglichkeit, für die Zukunft zu planen. Es ist ein bisschen wie der Roboter, der träumt und generative Modelle verwendet, anstatt es in der realen Welt tun zu müssen.

tch-1-tech