Während die multimodale API von OpenAI auf breiter Basis eingeführt wird, zeigen Untersuchungen, dass sie immer noch fehlerhaft ist

Waehrend die multimodale API von OpenAI auf breiter Basis eingefuehrt

Heute veröffentlichte OpenAI während seiner allerersten Entwicklerkonferenz neue Details einer Version von GPT-4, dem Flaggschiff-KI-Modell des Unternehmens zur Textgenerierung, das sowohl den Kontext von Bildern als auch von Text verstehen kann. Diese Version, die OpenAI „GPT-4 mit Vision“ nennt, kann relativ komplexe Bilder beschriften und sogar interpretieren – zum Beispiel die Identifizierung eines Lightning-Kabeladapters anhand eines Bildes eines angeschlossenen iPhones.

GPT-4 mit Sehvermögen war bisher nur für ausgewählte Nutzer von Be My Eyes verfügbar, einer App, die sehbehinderten Menschen dabei helfen soll, sich in der Welt um sie herum zurechtzufinden; Abonnenten der Premium-Stufen des KI-gestützten Chatbots ChatGPT von OpenAI; und „Red Teamer“, die damit beauftragt sind, GPT-4 mit Sehvermögen auf Anzeichen unbeabsichtigten Verhaltens zu untersuchen. Das liegt daran, dass OpenAI GPT-4 mit Visionen zurückhielt, nachdem es Anfang März vorgestellt wurde. angeblich aus Ängsten, dass es missbraucht werden könnte – und die Privatsphäre verletzen könnte.

Nun scheint OpenAI so zuversichtlich zu sein, was seine Gegenmaßnahmen angeht, um es der breiteren Entwicklergemeinschaft zu ermöglichen, GPT-4 mit Weitblick in ihre Apps, Produkte und Dienste zu entwickeln. GPT-4 mit Vision wird in den kommenden Wochen über die neu eingeführte GPT-4 Turbo API verfügbar sein, teilte das Unternehmen heute Morgen mit.

Die Frage ist, ob GPT-4 mit Vision’s Genau genommen allerdings sicherer als vorher.

Im Oktober, einige Wochen bevor OpenAI mit der Einführung von GPT-4 für ChatGPT-Abonnenten begann, veröffentlichte das Unternehmen ein Whitepaper, in dem die Einschränkungen des Modells und mehr detailliert beschrieben wurden … fraglich Tendenzen (z. B. Diskriminierung bestimmter Körpertypen). Aber das Papier wurde von OpenAI-Wissenschaftlern mitverfasst – nicht von externen Testern, die eine unparteiischere Perspektive einbringen könnten.

Glücklicherweise ermöglichte OpenAI mehreren Forschern – den oben genannten Red-Teamern – frühzeitig Zugang zu GPT-4 mit Vision für Evaluierungszwecke. Mindestens zwei, Chris Callison-Burch, außerordentlicher Professor für Informatik an der University of Pennsylvania, und Alyssa Hwang, Callison-Burchs Doktorandin, veröffentlichten heute Nachmittag auf der OpenAI-Konferenz ihre ersten Eindrücke.

Eine PR-Firma verband Tech per E-Mail mit Callison-Burch und Hwang.

„Ich habe mit GPT-4 mit Vision für eine Vielzahl von Aufgaben experimentiert, von der Beantwortung von Fragen zu Bildern über die Unterstützung bei der Auswahl von 3D-Objekten für Szenen in Videospielen bis hin zur Beschreibung der Kompositionen und künstlerischen Stile von Kunstgemälden“, sagt Callison-Burch. der sagte, er habe seit Juli Zugang zu GPT-4 mit Vision, sagte Tech in einem Interview. „Jedes Mal hat es den Nagel auf den Kopf getroffen. Die Beschreibungen sind unglaublich gut und stellen einen klaren Fortschritt gegenüber dem bisherigen Stand der Technik in der Bildunterschrift dar.“

Aber Hwang, der eine systematischere Überprüfung der Fähigkeiten von GPT-4 mit Vision durchführte, stellte fest, dass das Modell in mehreren wichtigen – und in einigen Fällen problematischen – Bereichen weiterhin fehlerhaft ist.

„Ich habe herausgefunden, dass GPT-4 mit Vision die Positionen von Elementen oft richtig beschrieb [in an image] war aber mit ihren strukturellen oder relativen Beziehungen weniger erfolgreich“, sagte Hwang in einer E-Mail zu Tech. „Zum Beispiel hieß es einmal richtig, dass zwei Kurven in einem Liniendiagramm nach oben geneigt seien, aber fälschlicherweise hieß es, welche Kurve höher als die andere sei. Und bei Diagrammen im Allgemeinen wurden ziemlich viele Fehler gemacht, von der falschen Schätzung der Werte in einem Balken- oder Liniendiagramm bis hin zur Fehlinterpretation der Farben in einer Legende.“

Hwang dokumentiert viele andere Fälle von GPT-4 mit Sehfehlern in einem Studienentwurf, der auf dem Preprint-Server Arxiv.org veröffentlicht wurde. Ihre Arbeit konzentriert sich hauptsächlich auf die Fähigkeit von GPT-4 mit Vision, Zahlen in wissenschaftlichen Arbeiten zu beschreiben, eine möglicherweise recht nützliche Anwendung der Technologie – bei der es jedoch auf Genauigkeit ankommt. Eine Menge.

Leider ist Genauigkeit nicht die Stärke von GPT-4, wenn es um die wissenschaftliche Interpretation geht.

Hwang schreibt, dass GPT-4 mit Vision bei der Wiedergabe mathematischer Formeln Fehler macht, indem es häufig Indizes weglässt oder sie falsch druckt. Das Zählen von Objekten in Abbildungen stellt ein weiteres Problem für das Modell dar, ebenso wie das Beschreiben von Farben – insbesondere der Farben von Objekten nebeneinander, die GPT-4 mit Vision manchmal verwechselt.

Einige der schwerwiegenderen, umfassenderen Mängel von GPT-4 mit Vision liegen in der sachlichen Genauigkeit.

GPT-4 mit Vision kann Text nicht zuverlässig aus einem Bild extrahieren. Um dies zu demonstrieren, gab Hwang dem Modell in der Studie eine Seite mit einer Liste von Rezepten und forderte es auf, jedes Rezept schriftlich aufzuschreiben. GPT-4 mit Vision machte Fehler beim Parsen der Rezepttitel und schrieb Dinge wie „Eggs Red Velvet Cake“ statt „Eggless Red Velvet Cake“ und „Sesame Pork Medaillons“ statt „Sesame Pork Milanese“.

Ein Beispiel für GPT-4 mit visueller Analyse und Textextraktion aus einem bestimmten Bild. Bildnachweis: Alyssa Hwang

Eine damit verbundene Herausforderung für GPT-4 mit Vision ist die Zusammenfassung. Wenn man ihn beispielsweise nach dem Kern eines Scans eines Dokuments fragt, könnte GPT-4 mit Vision Sätze in diesem Dokument schlecht umschreiben und dabei Informationen weglassen. Oder es verändert direkte Zitate auf irreführende Weise und lässt Teile weg, sodass die Bedeutung des Textes beeinträchtigt wird.

Das soll nicht heißen, dass GPT-4 mit Vision ein völliger Misserfolg eines multimodalen Modells ist. Hwang lobt seine analytischen Fähigkeiten und weist darauf hin, dass das Modell glänzt, wenn es darum geht, selbst recht komplizierte Szenen zu beschreiben. Es ist klar, warum OpenAI und Be My Eyes GPT-4 mit Vision als möglicherweise nützlich für die Barrierefreiheit ansahen – es passt natürlich zusammen.

Aber Hwangs Ergebnisse bestätigen, was das OpenAI-Papier angedeutet hat: dass GPT-4 mit Vision noch in Arbeit ist. Weit davon entfernt, ein universeller Problemlöser zu sein, macht GPT-4 mit Vision grundlegende Fehler, die ein Mensch nicht machen würde – und führt dabei möglicherweise zu Vorurteilen.

Es ist unklar, inwieweit sich die Sicherheitsmaßnahmen von OpenAI, die verhindern sollen, dass GPT-4 mit Vision Toxizität oder Fehlinformationen ausstrahlt, auf seine Genauigkeit auswirken könnten – oder ob das Modell einfach nicht auf genügend visuelle Daten trainiert wurde, um bestimmte Kanten zu bewältigen Fälle (z. B. Schreiben mathematischer Formeln). Hwang spekulierte nicht und überließ die Frage der weiteren Forschung.

In seinem Papier behauptete OpenAI, dass es „Abhilfemaßnahmen“ und „Prozesse“ entwickelt, um die Fähigkeiten von GPT-4 mit Vision auf „sichere“ Weise zu erweitern, etwa indem es GPT-4 mit Vision ermöglicht, Gesichter und Personen zu beschreiben, ohne diese Personen namentlich zu identifizieren. Wir müssen abwarten, inwieweit es erfolgreich ist – oder ob OpenAI an die Grenzen dessen stößt, was mit den heutigen multimodalen Modelltrainingsmethoden möglich ist.

tch-1-tech