Es ist nicht übertrieben zu sagen, dass die Branche der selbstfahrenden Autos vor einer Abrechnung steht.
Erst diese Woche rief Cruise seine gesamte Flotte autonomer Autos zurück, nachdem ein grausamer Unfall mit einem Fußgänger dazu geführt hatte, dass die kalifornische Straßenverkehrsbehörde (DMV) dem Unternehmen den Betrieb fahrerloser Robotaxis im Bundesstaat verbot. Unterdessen sind Aktivisten in San Francisco im wahrsten Sinne des Wortes auf die Straße gegangen, um selbstfahrende Autos lahmzulegen, als Protest gegen die Nutzung der Stadt als Testgelände für die neue Technologie.
Aber ein Startup sagt, es sei der Schlüssel zu sichererer Selbstfahrtechnologie – und glaubt, dass dieser Schlüssel die Kritiker überzeugen wird.
Ghost Autonomy, ein Unternehmen, das autonome Fahrsoftware für Partner von Automobilherstellern entwickelt, gab diese Woche bekannt, dass es plant, mit der Erforschung der Anwendungen multimodaler Large Language Models (LLMs) – KI-Modelle, die sowohl Text als auch Bilder verstehen können – beim Selbstfahren zu beginnen. Um dies zu erreichen, ist Ghost über den OpenAI Startup Fund eine Partnerschaft mit OpenAI eingegangen, um frühzeitig Zugang zu OpenAI-Systemen und Azure-Ressourcen von Microsoft, dem engen Partner von OpenAI, sowie einer Investition von 5 Millionen US-Dollar zu erhalten.
„LLMs bieten eine neue Möglichkeit, den ‚Long Tail‘ zu verstehen, indem sie komplexe Szenen begründen, in denen aktuelle Modelle nicht ausreichen“, sagte John Hayes, Mitbegründer und CEO von Ghost, in einem E-Mail-Interview mit Tech. „Die Anwendungsfälle für LLM-basierte Analysen in der Autonomie werden nur zunehmen, wenn LLMs schneller und leistungsfähiger werden.“
Aber wie genau wendet Ghost KI-Modelle an, die darauf ausgelegt sind, Bilder zu erklären und Texte zu generieren, um autonome Autos zu steuern? Laut Hayes testet Ghost eine Software, die auf multimodalen Modellen basiert, um „Szeneninterpretationen mit höherer Komplexität durchzuführen“. Vorschlagen von Straßenentscheidungen (z. B. „auf die rechte Spur wechseln“) an die Fahrzeugsteuerungshardware basierend auf Bildern von Straßenszenen von im Auto montierten Kameras.
„Bei Ghost werden wir an der Feinabstimmung vorhandener Modelle arbeiten und unsere eigenen Modelle trainieren, um die Zuverlässigkeit und Leistung auf der Straße zu maximieren“, sagte Hayes. „Zum Beispiel weisen Bauzonen ungewöhnliche Komponenten auf, die für einfachere Modelle schwierig zu navigieren sein können – vorübergehende Fahrspuren, Fahnenträger mit wechselnden Schildern und komplexe Verhandlungen mit anderen Verkehrsteilnehmern. Es hat sich gezeigt, dass LLMs in der Lage sind, all diese Variablen im Einklang mit menschenähnlichen Denkweisen zu verarbeiten.“
Die Experten, mit denen ich gesprochen habe, sind jedoch skeptisch.
„[Ghost is] „LLM“ als Marketing-Schlagwort verwenden“, Os Keyes, ein Ph.D. Kandidat an der University of Washington mit den Schwerpunkten Recht und Datenethik, teilte Tech per E-Mail mit. „Grundsätzlich wäre es genauso plausibel – und genauso offensichtlich ein Schwachsinn, wenn man diesen Vorschlag annimmt und LLM durch ‚Blockchain‘ ersetzt und es auf das Jahr 2016 zurückschickt.“
Keyes geht davon aus, dass LLMs einfach das falsche Werkzeug für selbstfahrendes Fahren sind. Sie seien nicht für diesen Zweck konzipiert oder ausgebildet worden, behauptet er, und könnten sogar einer sein weniger effiziente Möglichkeit, einige der größten Herausforderungen im Bereich der Fahrzeugautonomie zu lösen.
„Es ist so, als würde man hören, dass Ihr Nachbar einen Stapel Schatzscheine benutzt, um einen Tisch hochzuhalten“, sagte Keyes. „Du könnte Machen Sie es so, und es ist sicherlich schicker als die Alternative, aber … warum?“
Mike Cook, Dozent am King’s College London, dessen Forschungsschwerpunkt auf computergestützter Kreativität liegt, stimmt der Gesamteinschätzung von Keyes zu. Er stellt fest, dass multimodale Modelle selbst noch lange keine gelöste Wissenschaft sind; Tatsächlich erfindet das Flaggschiffmodell von OpenAI Fakten und macht grundlegende Fehler, die Menschen nicht machen würden, wie zum Beispiel das falsche Abschreiben von Text und die falsche Verwendung von Farben.
„Ich glaube nicht, dass es in der Informatik so etwas wie eine Wunderwaffe gibt“, sagte Cook. „Es gibt einfach keinen Grund, LLMs in den Mittelpunkt von etwas so Gefährlichem und Komplexem wie dem Autofahren zu stellen. Forscher auf der ganzen Welt kämpfen bereits darum, Wege zu finden, um die Sicherheit von LLMs für relativ alltägliche Aufgaben wie die Beantwortung von Aufsatzfragen zu validieren und nachzuweisen, und die Idee, dass wir diese oft unvorhersehbare und instabile Technologie auf das autonome Fahren anwenden sollten, ist bestenfalls verfrüht – und im schlimmsten Fall fehlgeleitet.“
Aber Hayes und OpenAI lassen sich nicht davon abbringen.
In einer Pressemitteilung wird Brad Lightcap, COO von OpenAI und Manager des OpenAI Startup Fund, mit den Worten zitiert, dass multimodale Modelle „das Potenzial haben, die Anwendbarkeit von LLMs auf viele neue Anwendungsfälle zu erweitern“, einschließlich Autonomie und Automobil. Er fügt hinzu: „Mit der Fähigkeit, durch die Kombination von Video, Bildern und Tönen zu verstehen und Schlussfolgerungen zu ziehen, könnten multimodale Modelle eine neue Möglichkeit schaffen, Szenen zu verstehen und sich in komplexen oder ungewöhnlichen Umgebungen zurechtzufinden.“
Tech schickte Fragen per E-Mail über die Presseabteilung von OpenAI an Lightcap, hatte jedoch zum Zeitpunkt der Veröffentlichung noch keine Antwort erhalten.
Was Hayes betrifft, so argumentiert er, dass LLMs es autonomen Fahrsystemen ermöglichen könnten, „Fahrszenen ganzheitlich zu betrachten“ und „breites Weltwissen zu nutzen“, um „komplexe und ungewöhnliche Situationen zu meistern“ – sogar Situationen, die sie zuvor noch nicht gesehen hatten. Er behauptet, dass Ghost über seine Entwicklungsflotte aktiv die Entscheidungsfindung zur multimodalen Modellsteuerung testet und mit Autoherstellern zusammenarbeitet, um neue große Modelle „gemeinsam zu validieren“ und in den Autonomie-Stack von Ghost zu integrieren.
„Zweifellos sind die aktuellen Modelle noch nicht ganz reif für den kommerziellen Einsatz in Autos“, sagte Hayes. „Es gibt noch viel zu tun, um ihre Zuverlässigkeit und Leistung zu verbessern. Aber genau aus diesem Grund gibt es einen Markt für anwendungsspezifische Unternehmen, die an diesen allgemeinen Modellen forschen und entwickeln. Unternehmen wie unseres mit vielen Trainingsdaten und einem tiefen Verständnis der Anwendung werden die bestehenden allgemeinen Modelle erheblich verbessern. Auch die Modelle selbst werden sich verbessern …. Letztendlich erfordert das autonome Fahren ein vollständiges System zur Gewährleistung der Sicherheit mit vielen verschiedenen Modelltypen und Funktionen. [Multimodal models] sind nur ein Hilfsmittel, um dies zu ermöglichen.“
Das ist angesichts der unerprobten Technologie vielversprechend. Kann Ghost liefern? Angesichts der Tatsache, dass Unternehmen, die so gut finanziert und mit ausreichend Ressourcen ausgestattet sind wie Cruise und Waymo, viele Jahre lang große Rückschläge beim Testen selbstfahrender Fahrzeuge auf der Straße erleben, bin ich mir nicht so sicher.