Wie Robotiker über generative KI denken

[A version of this piece first appeared in TechCrunch’s robotics newsletter, Actuator. Subscribe here.]

Das Thema generative KI kommt in meinem Newsletter Actuator häufig vor. Ich gebe zu, dass ich vor ein paar Monaten etwas zögerte, mehr Zeit mit dem Thema zu verbringen. Wer so lange wie ich über Technologie berichtet, hat unzählige Hype-Zyklen durchlebt und war schon einmal verbrannt. Die Berichterstattung über Technologie erfordert eine gesunde Portion Skepsis, die hoffentlich durch etwas Aufregung darüber, was getan werden kann, gemildert wird.

Dieses Mal schien es, als ob die generative KI in den Startlöchern wartete, ihren richtigen Zeitpunkt abwartete und auf die unvermeidliche Kraterbildung der Kryptowährung wartete. Als dieser Kategorie das Blut ausging, standen Projekte wie ChatGPT und DALL-E bereit, im Mittelpunkt atemloser Berichterstattung, Hoffnung, Kritik, Doomerismus und all der verschiedenen Kübler-Rossian-Stufen der Tech-Hype-Blase zu stehen.

Diejenigen, die meine Sachen verfolgen, wissen, dass ich in Bezug auf Kryptowährungen nie besonders optimistisch war. Anders verhält es sich jedoch mit der generativen KI. Zunächst einmal besteht nahezu allgemeine Einigkeit darüber, dass künstliche Intelligenz/maschinelles Lernen in Zukunft im Großen und Ganzen eine zentralere Rolle in unserem Leben spielen wird.

Smartphones bieten hier tolle Einblicke. Über Computerfotografie schreibe ich einigermaßen regelmäßig. In den letzten Jahren gab es in diesem Bereich große Fortschritte, und ich denke, dass viele Hersteller endlich eine gute Balance zwischen Hardware und Software gefunden haben, wenn es darum geht, sowohl das Endprodukt zu verbessern als auch die Einstiegshürde zu senken. Google zum Beispiel gelingt mit Bearbeitungsfunktionen wie Best Take und Magic Eraser einige wirklich beeindruckende Tricks.

Klar, es sind nette Tricks, aber sie sind auch nützlich und nicht Features um der Features willen. In Zukunft wird der eigentliche Trick jedoch darin bestehen, sie nahtlos in das Erlebnis zu integrieren. Bei idealen künftigen Arbeitsabläufen werden die meisten Benutzer kaum oder gar keine Ahnung davon haben, was sich hinter den Kulissen abspielt. Sie werden einfach froh sein, dass es funktioniert. Es ist das klassische Apple-Playbook.

Generative KI bietet von Anfang an einen ähnlichen „Wow“-Effekt, was einen weiteren Unterschied zu ihrem Hype-Cycle-Vorgänger darstellt. Wenn Ihr technisch am wenigsten versierter Verwandter an einem Computer sitzen, ein paar Wörter in ein Dialogfeld eingeben und dann zusehen kann, wie die Blackbox Bilder und Kurzgeschichten ausspuckt, ist nicht viel Konzeptualisierung erforderlich. Das ist einer der Hauptgründe dafür, dass sich das alles so schnell durchgesetzt hat: Wenn gewöhnliche Menschen mit Spitzentechnologien beworben werden, müssen sie sich meist vorstellen, wie es in fünf oder zehn Jahren aussehen könnte.

Mit ChatGPT, DALL-E usw. können Sie es jetzt aus erster Hand erleben. Die Kehrseite davon ist natürlich, wie schwierig es wird, die Erwartungen zu dämpfen. So sehr Menschen dazu neigen, Roboter mit menschlicher oder tierischer Intelligenz auszustatten, ohne ein grundlegendes Verständnis von KI zu haben, ist es hier leicht, Intentionalität zu projizieren. Aber so läuft es jetzt eben. Wir beginnen mit der aufmerksamkeitsstarken Schlagzeile und hoffen, dass die Leute lange genug dabei bleiben, um von den Machenschaften dahinter zu lesen.

Spoiler-Alarm: Neun von zehn Fällen tun sie es nicht, und plötzlich verbringen wir Monate und Jahre damit, die Dinge wieder in die Realität umzusetzen.

Einer der schönen Vorteile meines Jobs ist die Fähigkeit, diese Dinge mit Leuten aufzuklären, die viel schlauer sind als ich. Sie nehmen sich die Zeit, Dinge zu erklären, und hoffentlich gelingt es mir, das für die Leser gut zu übersetzen (einige Versuche sind erfolgreicher als andere).

Als klar wurde, dass generative KI in der Zukunft der Robotik eine wichtige Rolle spielen wird, habe ich Wege gefunden, Fragen in Gespräche einzubinden. Ich finde, dass die meisten Leute auf diesem Gebiet der Aussage im vorherigen Satz zustimmen, und es ist faszinierend zu sehen, welche Auswirkungen sie ihrer Meinung nach haben wird.

In meinem kürzlichen Gespräch mit Marc Raibert und Gill Pratt erläuterte letzterer beispielsweise die Rolle, die generative KI in ihrem Ansatz zum Roboterlernen spielt:

Wir haben herausgefunden, wie man etwas macht, nämlich moderne generative KI-Techniken zu nutzen, die es dem Menschen ermöglichen, sowohl Position als auch Kraft zu demonstrieren, um einem Roboter im Wesentlichen anhand von nur wenigen Beispielen etwas beizubringen. Der Code wird überhaupt nicht geändert. Grundlage hierfür ist die sogenannte Diffusionspolitik. Es ist eine Arbeit, die wir in Zusammenarbeit mit Columbia und MIT durchgeführt haben. Bisher haben wir 60 verschiedene Fertigkeiten vermittelt.

Als ich letzte Woche Nvidias VP und GM für Embedded und Edge Computing, Deepu Talla, fragte, warum das Unternehmen generative KI für mehr als eine Modeerscheinung hält, sagte er mir:

Ich denke, das spiegelt sich in den Ergebnissen wider. Sie können die Produktivitätssteigerung bereits erkennen. Es kann eine E-Mail für mich verfassen. Es ist nicht ganz richtig, aber ich muss nicht bei Null anfangen. Es gibt mir 70 %. Es gibt offensichtliche Dinge, die Sie bereits erkennen können und die definitiv eine Schrittfunktion besser sind als zuvor. Zusammenfassend lässt sich sagen, dass etwas nicht perfekt ist. Ich werde es nicht für mich lesen und zusammenfassen lassen. Sie können also bereits einige Anzeichen für Produktivitätsverbesserungen erkennen.

Während meines letzten Gesprächs mit Daniela Rus erklärte die Leiterin des MIT CSAIL, wie Forscher generative KI nutzen, um die Roboter tatsächlich zu entwerfen:

Es stellt sich heraus, dass generative KI sogar bei der Lösung von Bewegungsplanungsproblemen sehr leistungsfähig sein kann. Sie können viel schnellere Lösungen und viel flüssigere und menschenähnlichere Lösungen für die Steuerung erhalten als mit modellprädiktiven Lösungen. Ich denke, das ist sehr wirkungsvoll, denn die Roboter der Zukunft werden viel weniger robotisiert sein. Ihre Bewegungen werden viel flüssiger und menschenähnlicher sein.

Wir haben auch generative KI für das Design verwendet. Das ist sehr kraftvoll. Es ist auch sehr interessant, weil es nicht nur um die Mustergenerierung für Roboter geht. Du musst etwas anderes tun. Es kann nicht nur ein Muster basierend auf Daten generiert werden. Die Maschinen müssen im Kontext der Physik und der physischen Welt einen Sinn ergeben. Aus diesem Grund verbinden wir sie mit einer physikbasierten Simulations-Engine, um sicherzustellen, dass die Designs ihre erforderlichen Einschränkungen erfüllen.

Diese Woche ein Team der Northwestern University stellte seine eigene Forschung vor in das KI-generierte Roboterdesign. Die Forscher stellten vor, wie sie einen „in Sekundenschnelle erfolgreich laufenden Roboter“ entworfen haben. Es gibt zwar nicht viel zu sehen, aber es ist leicht zu erkennen, wie dieser Ansatz mit zusätzlicher Forschung zur Schaffung komplexerer Systeme genutzt werden könnte.

„Wir haben einen sehr schnellen KI-gesteuerten Designalgorithmus entdeckt, der die Staus der Evolution umgeht, ohne auf die Voreingenommenheit menschlicher Designer zurückzugreifen“, sagte Forschungsleiter Sam Kriegman. „Wir sagten der KI, dass wir einen Roboter wollten, der über Land laufen kann. Dann haben wir einfach einen Knopf gedrückt und schon war es los! Es erstellte im Handumdrehen einen Bauplan für einen Roboter, der überhaupt nicht wie irgendein Tier aussieht, das jemals auf der Erde gelebt hat. Ich nenne diesen Prozess ‚sofortige Evolution‘.“

Es war die Entscheidung des KI-Programms, dem kleinen, weichen Roboter Beine zu geben. „Das ist interessant, weil wir der KI nicht gesagt haben, dass ein Roboter Beine haben sollte“, fügte Kriegman hinzu. „Es wurde wiederentdeckt, dass Beine eine gute Möglichkeit sind, sich an Land fortzubewegen. Die Fortbewegung auf Beinen ist tatsächlich die effizienteste Form der Fortbewegung auf der Erde.“

„Aus meiner Sicht werden generative KI und physische Automatisierung/Robotik alles verändern, was wir über das Leben auf der Erde wissen“, sagte mir Jeff Linnell, Gründer und CEO von Formant, diese Woche. „Ich denke, wir sind uns alle der Tatsache bewusst, dass KI eine Sache ist, und gehen davon aus, dass jeder unserer Arbeitsplätze, jedes Unternehmen und jeder Student davon betroffen sein wird. Ich denke, es ist eine Symbiose mit der Robotik. Sie müssen keinen Roboter programmieren. Sie werden mit dem Roboter auf Englisch sprechen, eine Aktion anfordern und dann wird es herausgefunden. Dafür wird es eine Minute dauern.“

Vor seiner Tätigkeit bei Formant gründete Linnell Bot & Dolly und fungierte dort als CEO. Das in San Francisco ansässige Unternehmen, das vor allem für seine Arbeit an Gravity bekannt ist, wurde 2013 von Google übernommen, als der Softwareriese sich zum Ziel gesetzt hatte, die Branche voranzutreiben (die besten Pläne usw.). Der Geschäftsführer erzählt mir, dass seine wichtigste Erkenntnis aus dieser Erfahrung darin besteht, dass es nur um die Software geht (angesichts der Aufnahme von Intrinsic und Everyday Robots in DeepMind neige ich dazu, zu sagen, dass Google dem zustimmt).

tch-1-tech