Kovariant wurde gegründet 2017 mit einem einfachen Ziel: Robotern dabei zu helfen, zu lernen, wie sie Objekte besser aufnehmen können. Es ist ein großes Bedürfnis unter denjenigen, die Lager automatisieren möchten, und eines, das viel komplexer ist, als es den Anschein haben mag. Die meisten Waren, denen wir begegnen, sind irgendwann einmal durch ein Lager gegangen. Es ist eine unglaublich große Auswahl an Größen, Formen, Texturen und Farben.
Das Unternehmen aus der Bay Area hat ein KI-basiertes System entwickelt, das Netzwerkroboter trainiert, um die Auswahl während des Vorgangs zu verbessern. Eine Demo auf dem Boden der diesjährigen ProMat zeigt, wie schnell ein verbundener Arm in der Lage ist, eine breite Palette unterschiedlicher Objekte zu identifizieren, aufzunehmen und zu platzieren.
Mitbegründer und CEO Peter Chen hat sich letzte Woche auf der Messe mit Tech zusammengesetzt, um über Roboterlernen, den Aufbau grundlegender Modelle und natürlich ChatGPT zu sprechen.
Tech: Wenn Sie ein Startup sind, ist es sinnvoll, so viel handelsübliche Hardware wie möglich zu verwenden.
PC: Ja. Covariant begann an einem ganz anderen Ort. Wir haben mit reiner Software und reiner KI begonnen. Die ersten Mitarbeiter des Unternehmens waren alle KI-Forscher. Wir hatten keine Maschinenbauingenieure, niemanden in der Robotik. Dadurch konnten wir viel tiefer in die KI einsteigen als jeder andere. Wenn Sie sich andere Roboterfirmen ansehen [at ProMat]verwenden sie wahrscheinlich ein Standardmodell oder ein Open-Source-Modell – Dinge, die in der Wissenschaft verwendet wurden.
Wie ROS.
Ja. ROS oder Open-Source-Computer-Vision-Bibliotheken, die großartig sind. Aber was wir tun, ist grundlegend anders. Wir schauen uns an, was akademische KI-Modelle bieten, und es reicht nicht aus. Akademische KI wird in einer Laborumgebung entwickelt. Sie sind nicht dafür ausgelegt, den Tests der realen Welt standzuhalten – insbesondere den Tests vieler Kunden, Millionen von Fähigkeiten, Millionen verschiedener Arten von Artikeln, die von derselben KI verarbeitet werden müssen.
Viele Forscher verfolgen viele verschiedene Lernansätze. Was ist bei dir anders?
Ein Großteil des Gründungsteams stammte von OpenAI – wie drei der vier Mitbegründer. Wenn Sie sich ansehen, was OpenAI in den letzten drei bis vier Jahren im Sprachraum getan hat, verfolgt es im Grunde einen grundlegenden Modellansatz für Sprache. Vor dem kürzlich erschienenen ChatGPT gab es viele KIs zur Verarbeitung natürlicher Sprache. Suchen, übersetzen, Stimmungserkennung, Spam-Erkennung – es gab jede Menge KIs für natürliche Sprache. Der Ansatz vor GPT besteht darin, dass Sie für jeden Anwendungsfall eine bestimmte KI darauf trainieren, indem Sie eine kleinere Teilmenge von Daten verwenden. Schauen Sie sich jetzt die Ergebnisse an, und GPT schafft im Grunde das Gebiet der Übersetzung ab, und es ist nicht einmal auf die Übersetzung trainiert. Der Ansatz des Basismodells ist im Grunde genommen, anstatt kleine Datenmengen zu verwenden, die spezifisch für eine Situation sind, oder ein Modell zu trainieren, das spezifisch für einen Umstand ist, trainieren wir ein großes Basis-generalisiertes Modell mit viel mehr Daten, sodass die KI allgemeiner ist.
Sie konzentrieren sich auf das Picken und Platzieren, aber legen Sie auch den Grundstein für zukünftige Anwendungen?
Definitiv. Die Greiffähigkeit oder Pick-and-Place-Fähigkeit ist definitiv die erste allgemeine Fähigkeit, die wir den Robotern geben. Aber wenn Sie hinter die Kulissen schauen, gibt es viel 3D-Verständnis oder Objektverständnis. Es gibt viele kognitive Primitive, die auf zukünftige Roboteranwendungen verallgemeinert werden können. Davon abgesehen ist das Greifen oder Pflücken ein so großer Raum, dass wir eine Weile daran arbeiten können.
Sie gehen zuerst nach dem Kommissionieren und Platzieren, weil es einen klaren Bedarf dafür gibt.
Es gibt einen klaren Bedarf, und es gibt auch einen klaren Mangel an Technologie dafür. Das Interessante ist, wenn Sie vor 10 Jahren zu dieser Show gekommen wären, hätten Sie Kommissionierroboter finden können. Sie würden einfach nicht funktionieren. Damit hat die Branche schon lange zu kämpfen. Die Leute sagten, dass dies ohne KI nicht funktionieren könne, also versuchten die Leute Nischen-KI und Standard-KI, und sie funktionierten nicht.
Ihre Systeme werden in eine zentrale Datenbank eingespeist und jede Entnahme informiert die Maschinen darüber, wie sie in Zukunft kommissionieren sollen.
Ja. Das Lustige ist, dass fast jeder Artikel, den wir anfassen, irgendwann ein Lager durchläuft. Es ist fast ein zentraler Clearing-Platz für alles in der physischen Welt. Wenn Sie damit beginnen, KI für Lager zu entwickeln, ist dies eine großartige Grundlage für KI, die aus Lagern herausgeht. Angenommen, Sie nehmen einen Apfel vom Feld und bringen ihn zu einem landwirtschaftlichen Betrieb – er hat schon einmal einen Apfel gesehen. Es hat schon Erdbeeren gesehen.
Das ist eins zu eins. Ich pflücke einen Apfel in einem Logistikzentrum, damit ich einen Apfel auf einem Feld pflücken kann. Abstrakter gesagt, wie können diese Erkenntnisse auf andere Facetten des Lebens angewendet werden?
Wenn wir speziell von Covariant einen Schritt zurücktreten und darüber nachdenken wollen, wohin der Technologietrend geht, sehen wir eine interessante Konvergenz von KI, Software und Mechatronik. Traditionell sind diese drei Bereiche etwas voneinander getrennt. Mechatronik ist das, was Sie finden werden, wenn Sie zu dieser Messe kommen. Es geht um wiederholbare Bewegung. Wenn Sie mit den Verkäufern sprechen, erzählen sie Ihnen von Zuverlässigkeit, wie diese Maschine immer wieder dasselbe tun kann.
Die wirklich erstaunliche Entwicklung, die wir in den letzten 15 bis 20 Jahren im Silicon Valley gesehen haben, betrifft die Software. Die Leute haben den Code geknackt, wie man wirklich komplexe und hochintelligent aussehende Software erstellt. All diese Apps, die wir verwenden, sind wirklich Menschen, die sich die Möglichkeiten von Software zunutze machen. Jetzt sind wir an der Spitze der KI, mit all den erstaunlichen Fortschritten. Wenn Sie mich fragen, was jenseits von Lagerhäusern ist, sehe ich, wohin dies wirklich geht, nämlich die Konvergenz dieser drei Trends zum Bau hochautonomer physischer Maschinen in der Welt. Sie brauchen die Konvergenz aller Technologien.
Sie haben erwähnt, dass ChatGPT hereinkommt und Leute blind macht, die Übersetzungssoftware entwickeln. Das ist etwas, das in der Technologie passiert. Haben Sie Angst, dass ein GPT hereinkommt und die Arbeit von Covariant effektiv über den Haufen wirft?
Das ist für viele Leute eine gute Frage, aber ich denke, wir hatten einen unfairen Vorteil, da wir mit ziemlich derselben Überzeugung begannen, die OpenAI beim Erstellen grundlegender Modelle hatte. Allgemeine KI ist ein besserer Ansatz als der Aufbau von Nischen-KI. Das haben wir in den letzten fünf Jahren getan. Ich würde sagen, dass wir in einer sehr guten Position sind, und wir sind sehr froh, dass OpenAI gezeigt hat, dass diese Philosophie wirklich gut funktioniert. Wir freuen uns sehr darauf, dies in der Welt der Robotik zu tun.