Der „GPT-Moment“ der KI-Robotik steht vor der Tür

Peter Chen ist CEO und Mitbegründer von Kovariante, das weltweit führende KI-Robotikunternehmen. Bevor er Covariant gründete, war Peter wissenschaftlicher Mitarbeiter bei OpenAI und Forscher am Berkeley Artificial Intelligence Research (BAIR) Lab, wo er sich auf Reinforcement Learning, Meta-Learning und unüberwachtes Lernen konzentrierte.

Es ist kein Geheimnis, dass Grundlagenmodelle die KI in der digitalen Welt verändert haben. Große Sprachmodelle (LLMs) wie ChatGPT, LLaMA und Bard haben die KI für Sprachen revolutioniert. Obwohl die GPT-Modelle von OpenAI nicht das einzige verfügbare große Sprachmodell sind, haben sie die gängigste Anerkennung dafür erlangt, dass sie Text- und Bildeingaben entgegennehmen und menschenähnliche Antworten liefern – selbst bei einigen Aufgaben, die komplexe Problemlösungen und fortgeschrittenes Denken erfordern.

Die virale und weitverbreitete Akzeptanz von ChatGPT hat maßgeblich dazu beigetragen, wie die Gesellschaft diesen neuen Moment der künstlichen Intelligenz versteht.

Der nächste Fortschritt, der die KI für Generationen prägen wird, ist die Robotik. Der Bau von KI-gestützten Robotern, die lernen können, mit der physischen Welt zu interagieren, wird alle Formen repetitiver Arbeit in Sektoren verbessern, die von Logistik, Transport und Fertigung bis hin zu Einzelhandel, Landwirtschaft und sogar Gesundheitswesen reichen. Es wird auch in der physischen Welt ebenso viele Effizienzsteigerungen ermöglichen, wie wir es in den letzten Jahrzehnten in der digitalen Welt gesehen haben.

Obwohl es innerhalb der Robotik im Vergleich zur Sprache eine einzigartige Reihe von Problemen zu lösen gibt, gibt es Ähnlichkeiten zwischen den grundlegenden Grundkonzepten. Und einige der klügsten Köpfe der KI haben beim Aufbau des „GPT für Robotik“ erhebliche Fortschritte gemacht.

Was macht den Erfolg von GPT aus?

Um zu verstehen, wie man das „GPT für die Robotik“ aufbaut, schauen Sie sich zunächst die Grundpfeiler an, die den Erfolg von LLMs wie GPT ermöglicht haben.

Ansatz des Stiftungsmodells

GPT ist ein KI-Modell, das auf einem riesigen, vielfältigen Datensatz trainiert wird. Ingenieure sammelten zuvor Daten und trainierten spezifische KI für ein bestimmtes Problem. Dann müssten sie neue Daten sammeln, um ein anderes Problem zu lösen. Ein weiteres Problem? Schon wieder neue Daten. Mit einem Stiftungsmodell-Ansatz geschieht nun genau das Gegenteil.

Anstatt Nischen-KIs für jeden Anwendungsfall zu entwickeln, kann eine universell eingesetzt werden. Und dieses eine sehr allgemeine Modell ist erfolgreicher als jedes spezialisierte Modell. Die KI in einem Basismodell schneidet bei einer bestimmten Aufgabe besser ab. Es kann Erkenntnisse aus anderen Aufgaben nutzen und besser auf neue Aufgaben übertragen, da es zusätzliche Fähigkeiten erlernt hat, indem es bei einer Vielzahl von Aufgaben gute Leistungen erbringen muss.

Schulung an einem großen, proprietären und hochwertigen Datensatz

Um über eine verallgemeinerte KI zu verfügen, benötigen Sie zunächst Zugriff auf eine große Menge unterschiedlicher Daten. OpenAI hat die realen Daten erhalten, die zum einigermaßen effizienten Training der GPT-Modelle erforderlich sind. GPT hat auf Daten trainiert, die im gesamten Internet mit einem großen und vielfältigen Datensatz gesammelt wurden, darunter Bücher, Nachrichtenartikel, Social-Media-Beiträge, Code und mehr.

Der Bau von KI-gestützten Robotern, die lernen können, mit der physischen Welt zu interagieren, wird alle Formen repetitiver Arbeit verbessern.

Es kommt nicht nur auf die Größe des Datensatzes an; Auch die Kuratierung hochwertiger und wertvoller Daten spielt eine große Rolle. Die GPT-Modelle haben eine beispiellose Leistung erreicht, da ihre hochwertigen Datensätze hauptsächlich auf den Aufgaben basieren, die den Benutzern wichtig sind, und auf den hilfreichsten Antworten.

Rolle des Reinforcement Learning (RL)

OpenAI nutzt Reinforcement Learning aus menschlichem Feedback (RLHF), um die Reaktion des Modells an menschlichen Vorlieben auszurichten (z. B. was für einen Benutzer als vorteilhaft erachtet wird). Es muss mehr geben als reines überwachtes Lernen (SL), denn SL kann ein Problem nur mit einem klaren Muster oder einer Reihe von Beispielen angehen. LLMs erfordern, dass die KI ein Ziel ohne eine eindeutige, richtige Antwort erreicht. Geben Sie RLHF ein.

RLHF ermöglicht es dem Algorithmus, sich durch Versuch und Irrtum einem Ziel zu nähern, während ein Mensch richtige Antworten anerkennt (hohe Belohnung) oder falsche Antworten ablehnt (niedrige Belohnung). Die KI findet die Belohnungsfunktion, die die menschliche Präferenz am besten erklärt, und nutzt dann RL, um zu lernen, wie man dorthin gelangt. ChatGPT kann Antworten liefern, die menschliche Fähigkeiten widerspiegeln oder übertreffen, indem es aus menschlichem Feedback lernt.

Die nächste Grenze der Grundlagenmodelle liegt in der Robotik

Dieselbe Kerntechnologie, die es GPT ermöglicht, zu sehen, zu denken und sogar zu sprechen, ermöglicht es auch Maschinen, zu sehen, zu denken und zu handeln. Roboter, die auf einem Fundamentmodell basieren, können ihre physische Umgebung verstehen, fundierte Entscheidungen treffen und ihre Aktionen an sich ändernde Umstände anpassen.

Das „GPT für Robotik“ wird auf die gleiche Weise aufgebaut wie GPT – es legt den Grundstein für eine Revolution, die die KI, wie wir sie kennen, noch einmal neu definieren wird.

Ansatz des Stiftungsmodells

Mithilfe eines Basismodellansatzes können Sie auch eine einzige KI aufbauen, die für mehrere Aufgaben in der physischen Welt geeignet ist. Vor einigen Jahren empfahlen Experten die Entwicklung einer speziellen KI für Roboter, die Lebensmittel kommissionieren und verpacken. Und das unterscheidet sich von einem Modell, das verschiedene elektrische Teile sortieren kann, und das von dem Modell, das Paletten von einem LKW entlädt.

Dieser Paradigmenwechsel zu einem Basismodell ermöglicht es der KI, besser auf Grenzfallszenarien zu reagieren, die häufig in unstrukturierten realen Umgebungen vorkommen und andernfalls Modelle mit engerem Training überfordern könnten. Der Aufbau einer verallgemeinerten KI für alle diese Szenarien ist erfolgreicher. Durch das Training in allem erhält man die Autonomie auf menschlicher Ebene, die uns bei den vorherigen Robotergenerationen gefehlt hat.

Schulung an einem großen, proprietären und hochwertigen Datensatz

Es ist äußerst schwierig, einem Roboter beizubringen, welche Handlungen zum Erfolg und welche zum Scheitern führen. Es erfordert umfangreiche, qualitativ hochwertige Daten, die auf realen physikalischen Interaktionen basieren. Einzelne Laboreinstellungen oder Videobeispiele sind unzuverlässige oder ausreichend robuste Quellen (z. B. können YouTube-Videos die Details der physischen Interaktion nicht übersetzen und akademische Datensätze sind in der Regel in ihrem Umfang begrenzt).

Im Gegensatz zur KI für die Sprach- oder Bildverarbeitung gibt es keinen bereits vorhandenen Datensatz, der darstellt, wie Roboter mit der physischen Welt interagieren sollten. Daher wird der große, qualitativ hochwertige Datensatz zu einer komplexeren Herausforderung für die Robotik, und der Einsatz einer Roboterflotte in der Produktion ist die einzige Möglichkeit, einen vielfältigen Datensatz aufzubauen.

Rolle des verstärkenden Lernens

Ähnlich wie bei der Beantwortung von Textfragen mit menschlichen Fähigkeiten erfordert die Robotersteuerung und -manipulation, dass ein Agent Fortschritte in Richtung eines Ziels anstrebt, für das es keine einzige, eindeutige und richtige Antwort gibt (z. B. „Wie kann man diese rote Zwiebel erfolgreich einsammeln?“). . Auch hier ist mehr als reines überwachtes Lernen erforderlich.

Um in der Robotik erfolgreich zu sein, benötigen Sie einen Roboter, der Deep Reinforcement Learning (Deep RL) ausführt. Dieser autonome, selbstlernende Ansatz kombiniert RL mit tiefen neuronalen Netzen, um höhere Leistungsniveaus zu erschließen – die KI passt ihre Lernstrategien automatisch an und verfeinert ihre Fähigkeiten weiter, wenn sie neue Szenarien erlebt.

Es steht ein herausforderndes, explosives Wachstum bevor

In den letzten Jahren haben einige der weltweit klügsten KI- und Robotik-Experten den technischen und kommerziellen Grundstein für eine Revolution des Roboter-Grundmodells gelegt, die die Zukunft der künstlichen Intelligenz neu definieren wird.

Obwohl diese KI-Modelle ähnlich wie GPT aufgebaut sind, ist das Erreichen menschlicher Autonomie in der physischen Welt aus zwei Gründen eine andere wissenschaftliche Herausforderung:

Der Aufbau eines KI-basierten Produkts, das eine Vielzahl realer Umgebungen bedienen kann, erfordert eine Reihe bemerkenswert komplexer physikalischer Anforderungen. Die KI muss sich an unterschiedliche Hardwareanwendungen anpassen, da es zweifelhaft ist, ob eine Hardware in verschiedenen Branchen (Logistik, Transport, Fertigung, Einzelhandel, Landwirtschaft, Gesundheitswesen usw.) und Aktivitäten innerhalb der einzelnen Sektoren funktioniert.
Lagerhäuser und Vertriebszentren sind eine ideale Lernumgebung für KI-Modelle in der physischen Welt. Es ist üblich, dass jederzeit Hunderttausende oder sogar Millionen verschiedener Lagereinheiten (SKUs) durch jede Einrichtung fließen und den großen, proprietären und qualitativ hochwertigen Datensatz liefern, der zum Trainieren des „GPT für Robotik“ erforderlich ist.