Anthropic veröffentlicht die „Systemeingabeaufforderung“, die Claude antreibt

Generative KI-Modelle sind eigentlich nicht menschenähnlich. Sie haben weder Intelligenz noch Persönlichkeit – sie sind lediglich statistische Systeme, die die wahrscheinlichsten nächsten Wörter in einem Satz vorhersagen. Aber wie Praktikanten an einem tyrannischen Arbeitsplatz, Tun befolgen Sie Anweisungen ohne zu murren – einschließlich anfänglicher „Systemaufforderungen“, die den Modellen ihre grundlegenden Eigenschaften und das, was sie tun und nicht tun sollten, erklären.

Jeder Anbieter generativer KI, von OpenAI bis Anthropic, verwendet Systemaufforderungen, um Fehlverhalten von Modellen zu verhindern (oder zumindest zu verhindern), und um den allgemeinen Ton und die Stimmung der Antworten der Modelle zu steuern. Eine Aufforderung könnte einem Modell beispielsweise sagen, dass es höflich, aber niemals entschuldigend sein soll, oder dass es ehrlich sein soll, wenn es um die Tatsache geht, dass es nicht alles wissen kann.

Anbieter halten Systemaufforderungen jedoch normalerweise geheim – vermutlich aus Wettbewerbsgründen, aber vielleicht auch, weil die Kenntnis der Systemaufforderung Möglichkeiten aufzeigen könnte, diese zu umgehen. Die einzige Möglichkeit, die Systemaufforderung von GPT-4o offenzulegen, ist beispielsweise ein Prompt-Injection-Angriff. Und selbst dann ist die Ausgabe des Systems nicht vollständig vertrauenswürdig.

Anthropic jedoch, in seinem fortwährenden Bemühen, stellt sich als ethischerer und transparenterer KI-Anbieter darhat veröffentlicht Das System fordert in den Claude iOS- und Android-Apps und im Internet zu seinen neuesten Modellen (Claude 3.5 Opus, Sonnet und Haiku) auf.

Alex Albert, Leiter der Entwicklerbeziehungen bei Anthropic, sagte in einem Beitrag auf X, dass Anthropic plant, diese Art der Offenlegung zu einer regelmäßigen Angelegenheit zu machen, wenn es seine Systemaufforderungen aktualisiert und feinabstimmt.

Die neuesten Eingabeaufforderungen vom 12. Juli beschreiben sehr deutlich, was die Claude-Modelle nicht können – z. B. „Claude kann keine URLs, Links oder Videos öffnen.“ Gesichtserkennung ist ein großes No-Go; die Systemaufforderung für Claude 3.5 Opus sagt dem Modell, es solle „immer so reagieren, als sei es völlig gesichtsblind“ und „es vermeiden, Menschen in [images].”

Die Eingabeaufforderungen beschreiben aber auch bestimmte Persönlichkeitsmerkmale und -eigenschaften – Merkmale und Eigenschaften, die Anthropic durch die Claude-Modelle veranschaulichen möchte.

Die Anweisung für Opus lautet beispielsweise, dass Claude so aussehen soll, als ob es „[is] sehr schlau und intellektuell neugierig“ und „hört gerne, was Menschen zu einem Thema denken, und beteiligt sich an Diskussionen zu einer großen Bandbreite von Themen.“ Claude wird außerdem angewiesen, kontroverse Themen unparteiisch und objektiv zu behandeln, „sorgfältig nachzudenken“ und „klare Informationen“ zu liefern – und Antworten niemals mit den Worten „sicherlich“ oder „absolut“ zu beginnen.

Für diesen Menschen ist das alles ein bisschen seltsam, diese Systemaufforderungen, die so geschrieben sind, wie ein Schauspieler in einem Bühnenstück ein Charakteranalyseblatt. Die Eingabeaufforderung für Opus endet mit „Claude wird jetzt mit einem Menschen verbunden“, was den Eindruck erweckt, dass Claude eine Art Bewusstsein am anderen Ende des Bildschirms ist, dessen einziger Zweck darin besteht, die Launen seiner menschlichen Gesprächspartner zu erfüllen.

Aber das ist natürlich eine Illusion. Wenn uns die Anweisungen für Claude etwas sagen, dann, dass diese Modelle ohne menschliche Anleitung und Unterstützung erschreckend unbeschriebene Blätter sind.

Mit diesen neuen System-Prompt-Changelogs – den ersten ihrer Art von einem großen KI-Anbieter – übt Anthropic Druck auf die Konkurrenz aus, dasselbe zu veröffentlichen. Wir werden sehen, ob der Schachzug funktioniert.



tch-1-tech