OpenAI bietet einen Blick hinter die Kulissen der geheimen Anweisungen seiner KI

OpenAI bietet einen Blick hinter die Kulissen der geheimen Anweisungen

Haben Sie sich jemals gefragt, warum Konversations-KI wie ChatGPT „Tut mir leid, das geht nicht“ oder eine andere höfliche Absage sagt? OpenAI bietet einen begrenzten Einblick in die Gründe für die Einsatzregeln seiner eigenen Modelle, sei es die Einhaltung von Markenrichtlinien oder die Ablehnung der Erstellung von NSFW-Inhalten.

Bei großen Sprachmodellen (LLMs) gibt es keine natürlichen Grenzen für das, was sie sagen können oder wollen. Das ist einer der Gründe, warum sie so vielseitig sind, aber auch der Grund, warum sie halluzinieren und sich leicht täuschen lassen.

Für jedes KI-Modell, das mit der Öffentlichkeit interagiert, ist es notwendig, ein paar Leitplanken dafür zu haben, was es tun und was nicht, aber diese zu definieren – geschweige denn sie durchzusetzen – ist eine überraschend schwierige Aufgabe.

Wenn jemand eine KI bittet, eine Reihe falscher Behauptungen über eine Persönlichkeit des öffentlichen Lebens zu generieren, sollte sie dies ablehnen, oder? Was aber, wenn sie selbst KI-Entwickler sind und eine Datenbank mit synthetischer Desinformation für ein Detektormodell erstellen?

Was ist, wenn jemand nach Laptop-Empfehlungen fragt? Es sollte objektiv sein, oder? Was aber, wenn das Modell von einem Laptop-Hersteller eingesetzt wird, der möchte, dass es nur mit seinen eigenen Geräten reagiert?

KI-Entwickler müssen sich alle mit solchen Rätseln auseinandersetzen und suchen nach effizienten Methoden, um ihre Modelle einzudämmen, ohne dass sie völlig normale Anfragen ablehnen. Aber sie teilen selten genau mit, wie sie es machen.

OpenAI widersetzt sich dem Trend ein wenig, indem es seine sogenannte „Modellspezifikation“ veröffentlicht, eine Sammlung hochrangiger Regeln, die ChatGPT und andere Modelle indirekt steuern.

Es gibt Ziele auf Metaebene, einige strenge Regeln und einige allgemeine Verhaltensrichtlinien. Um es klarzustellen: Diese sind streng genommen nicht die Grundlage des Modells. OpenAI wird spezifische Anweisungen entwickelt haben, die das erreichen, was diese Regeln in natürlicher Sprache beschreiben.

Es ist ein interessanter Blick darauf, wie ein Unternehmen seine Prioritäten setzt und Grenzfälle behandelt. Und da sind zahlreiche Beispiele dafür, wie sie sich auswirken könnten.

OpenAI stellt beispielsweise klar, dass die Absicht des Entwicklers im Grunde das höchste Gesetz ist. Eine Version eines Chatbots, auf dem GPT-4 läuft, könnte also die Antwort auf ein mathematisches Problem liefern, wenn man danach gefragt wird. Wenn dieser Chatbot jedoch von seinem Entwickler darauf vorbereitet wurde, niemals einfach eine Antwort zu geben, bietet er stattdessen an, die Lösung Schritt für Schritt durchzuarbeiten:

Bildnachweis: OpenAI

Eine Konversationsschnittstelle könnte es sogar ablehnen, über alles zu sprechen, was nicht genehmigt ist, um Manipulationsversuche im Keim zu ersticken. Warum überhaupt einen Kochassistenten über die Beteiligung der USA am Vietnamkrieg äußern lassen? Warum sollte ein Kundendienst-Chatbot bereit sein, bei der Arbeit an Ihrer erotischen übernatürlichen Novelle zu helfen? Schalten Sie ihn aus.

Auch in Fragen der Privatsphäre wird es heikel, etwa wenn man nach dem Namen und der Telefonnummer einer Person fragt. Wie OpenAI betont, sollten natürlich Persönlichkeiten des öffentlichen Lebens wie ein Bürgermeister oder ein Kongressabgeordneter ihre Kontaktdaten angeben, aber was ist mit Handwerkern in der Gegend? Das ist wahrscheinlich in Ordnung – aber was ist mit Mitarbeitern eines bestimmten Unternehmens oder Mitgliedern einer politischen Partei? Wahrscheinlich nicht.

Es ist nicht einfach zu entscheiden, wann und wo die Grenze gezogen werden soll. Es werden auch keine Anweisungen erstellt, die die KI dazu veranlassen, sich an die daraus resultierende Richtlinie zu halten. Und zweifellos werden diese Richtlinien immer wieder scheitern, wenn Menschen lernen, sie zu umgehen oder versehentlich Randfälle finden, die nicht berücksichtigt werden.

OpenAI zeigt hier nicht sein ganzes Können, aber es ist für Benutzer und Entwickler hilfreich zu sehen, wie diese Regeln und Richtlinien festgelegt werden und warum, klar dargelegt, wenn auch nicht unbedingt umfassend.

tch-1-tech