Das GPT-4 mit Vision von OpenAI weist laut Papier immer noch Mängel auf

Das GPT 4 mit Vision von OpenAI weist laut Papier immer

Als OpenAI zum ersten Mal GPT-4 vorstellte, sein Flaggschiff-KI-Modell zur Textgenerierung, pries das Unternehmen die Multimodalität des Modells – mit anderen Worten seine Fähigkeit, den Kontext von Bildern und Texten zu verstehen. Laut OpenAI könnte GPT-4 relativ komplexe Bilder beschriften und sogar interpretieren, beispielsweise einen Lightning-Kabel-Adapter anhand eines Bildes eines angeschlossenen iPhones identifizieren.

Doch seit der Ankündigung von GPT-4 Ende März hat OpenAI die Bildfunktionen des Modells zurückgehalten. angeblich zu Ängsten vor Missbrauch und Datenschutzproblemen. Bis vor Kurzem blieb die genaue Natur dieser Ängste ein Rätsel. Aber Anfang dieser Woche veröffentlichte OpenAI eine technische Papier detailliert seine Arbeit zur Abmilderung der problematischeren Aspekte der Bildanalysetools von GPT-4.

Bisher wurde GPT-4 mit Sehvermögen, von OpenAI intern „GPT-4V“ abgekürzt, regelmäßig nur von einigen tausend Nutzern von Be My Eyes verwendet, einer App, die sehbehinderten und blinden Menschen hilft, sich in der sie umgebenden Umgebung zurechtzufinden. In den letzten Monaten begann OpenAI jedoch auch mit „Red Teamern“ zusammenzuarbeiten, um das Modell auf Anzeichen unbeabsichtigten Verhaltens zu untersuchen, heißt es in dem Papier.

In dem Papier behauptet OpenAI, dass es Schutzmaßnahmen implementiert hat, um zu verhindern, dass GPT-4V auf böswillige Weise verwendet wird, wie z. B. das Brechen von CAPTCHAs (das Anti-Spam-Tool, das in vielen Webformularen zu finden ist), das Identifizieren einer Person oder das Schätzen ihres Alters oder ihrer Rasse sowie Zeichnen Schlussfolgerungen, die auf Informationen basieren, die auf einem Foto nicht vorhanden sind. OpenAI sagt auch, dass es daran gearbeitet hat, die schädlicheren Vorurteile von GPT-4V einzudämmen, insbesondere solche, die sich auf das körperliche Erscheinungsbild und das Geschlecht oder die ethnische Zugehörigkeit einer Person beziehen.

Aber wie bei allen KI-Modellen können Schutzmaßnahmen nur eine begrenzte Menge bewirken.

Das Papier zeigt, dass GPT-4V manchmal Schwierigkeiten hat, die richtigen Schlussfolgerungen zu ziehen, beispielsweise durch die versehentliche Kombination zweier Textzeichenfolgen in einem Bild, um einen erfundenen Begriff zu erstellen. Wie das Basis-GPT-4 neigt auch GPT-4V dazu, zu halluzinieren oder Fakten in einem autoritären Ton zu erfinden. Und es geht nicht darum, dass Text oder Zeichen fehlen, mathematische Symbole übersehen werden und offensichtliche Objekte und Gedecke nicht erkannt werden.

Bildnachweis: OpenAI

Es ist daher nicht verwunderlich, dass OpenAI unmissverständlich und klar sagt, dass GPT-4V nicht zum Erkennen gefährlicher Substanzen oder Chemikalien in Bildern verwendet werden darf. (Dieser Reporter hatte noch nicht einmal an den Anwendungsfall gedacht, aber offenbar ist die Aussicht für OpenAI so besorgniserregend, dass das Unternehmen das Bedürfnis verspürte, darauf hinzuweisen.) Red-Teamer fanden heraus, dass das Modell giftige Lebensmittel gelegentlich korrekt als toxisch identifiziert Pilze, es identifiziert Substanzen wie Fentanyl, Carfentanil und Kokain anhand von Bildern ihrer chemischen Strukturen falsch.

Bei der Anwendung auf den Bereich der medizinischen Bildgebung schneidet GPT-4V nicht besser ab und liefert manchmal falsche Antworten auf dieselbe Frage, die es in einem früheren Kontext richtig beantwortet hat. Es kennt auch keine Standardpraktiken wie die Betrachtung von Bildscans, als ob der Patient Ihnen zugewandt wäre (was bedeutet, dass die rechte Seite auf dem Bild der linken Seite des Patienten entspricht), was dazu führt, dass eine Reihe von Erkrankungen falsch diagnostiziert werden.

GPT-4V OpenAI

Bildnachweis: OpenAI

An anderer Stelle, warnt OpenAI, versteht GPT-4V die Nuancen bestimmter Hasssymbole nicht – zum Beispiel fehlt die moderne Bedeutung des Templerkreuzes (weiße Vorherrschaft) in den USA. Noch bizarrer und vielleicht ein Symptom seiner halluzinatorischen Tendenzen: GPT-4V versteht nicht die Nuancen bestimmter Hasssymbole. Es wurde beobachtet, dass 4V Lieder oder Gedichte verfasste, in denen bestimmte hasserfüllte Personen oder Gruppen gelobt wurden, wenn ihnen ein Bild davon vorgelegt wurde, selbst wenn die Personen oder Gruppen nicht ausdrücklich benannt wurden.

GPT-4V diskriminiert auch bestimmte Geschlechter und Körpertypen – allerdings nur, wenn die Produktionsschutzmaßnahmen von OpenAI deaktiviert sind. OpenAI schreibt, dass GPT-4V in einem Test, als er einer im Badeanzug abgebildeten Frau Ratschläge geben sollte, Antworten gab, die sich fast ausschließlich auf das Körpergewicht der Frau und das Konzept der Körperpositivität bezogen. Man geht davon aus, dass dies nicht der Fall gewesen wäre, wenn das Bild einen Mann gezeigt hätte.

GPT-4V OpenAI

Bildnachweis: OpenAI

Der eingeschränkten Sprache des Papiers nach zu urteilen, ist GPT-4V noch immer in Arbeit – ein paar Schritte von dem entfernt, was sich OpenAI ursprünglich vorgestellt hätte. In vielen Fällen war das Unternehmen gezwungen, übermäßig strenge Sicherheitsvorkehrungen zu treffen, um zu verhindern, dass das Modell Giftstoffe oder Fehlinformationen verbreitet oder die Privatsphäre einer Person gefährdet.

OpenAI behauptet, dass es „Abhilfemaßnahmen“ und „Prozesse“ entwickelt, um die Fähigkeiten des Modells auf „sichere“ Weise zu erweitern, etwa indem es GPT-4V ermöglicht, Gesichter und Personen zu beschreiben, ohne diese Personen namentlich zu identifizieren. Das Papier zeigt jedoch, dass GPT-4V kein Allheilmittel ist und OpenAI noch viel Arbeit vor sich hat.

tch-1-tech