Hat einen Menschen gemacht schreiben Sie das, oder ChatGPT? Es kann schwer zu sagen sein – vielleicht zu schwer, denkt sein Schöpfer OpenAI, weshalb es an einer Möglichkeit arbeitet, KI-generierte Inhalte mit einem „Wasserzeichen“ zu versehen.
In einem Vorlesung an der University of Austin enthüllte der Informatikprofessor Scott Aaronson, derzeit Gastforscher bei OpenAI, dass OpenAI ein Tool entwickelt, um „die Ausgaben eines Textes statistisch mit Wasserzeichen zu versehen [AI system].“ Immer wenn ein System – sagen wir ChatGPT – Text generiert, würde das Tool ein „unbemerkbares geheimes Signal“ einbetten, das angibt, woher der Text stammt.
OpenAI-Ingenieur Hendrik Kirchner hat einen funktionierenden Prototyp gebaut, sagt Aaronson, und man hofft, ihn in zukünftige von OpenAI entwickelte Systeme einbauen zu können.
„Wir wollen, dass es viel schwerer zu ertragen ist [an AI system’s] ausgeben und weitergeben, als käme es von einem Menschen“, sagte Aaronson in seinen Bemerkungen. „Dies könnte natürlich hilfreich sein, um akademisches Plagiat zu verhindern, aber auch zum Beispiel die Massenproduktion von Propaganda – Sie wissen schon, jeden Blog mit scheinbar themenbezogenen Kommentaren zuzuspammen, die Russlands Invasion in der Ukraine unterstützen, ohne auch nur ein Gebäude voller Trolle in Moskau zu haben. Oder den Schreibstil einer anderen Person nachahmen, um sie zu belasten.“
Zufälligkeit ausnutzen
Warum die Notwendigkeit für ein Wasserzeichen? ChatGPT ist ein starkes Beispiel. Der von OpenAI entwickelte Chatbot hat das Internet im Sturm erobert und zeigt nicht nur die Fähigkeit, herausfordernde Fragen zu beantworten, sondern auch Gedichte zu schreiben, Programmierrätsel zu lösen und sich über eine Reihe von philosophischen Themen zu verdichten.
Während ChatGPT höchst amüsant – und wirklich nützlich – ist, wirft das System offensichtliche ethische Bedenken auf. Wie viele der texterzeugenden Systeme davor könnte ChatGPT verwendet werden, um hochwertige Phishing-E-Mails und schädliche Malware zu schreiben oder bei Schulaufgaben zu schummeln. Und als Frage-Antwort-Tool ist es sachlich inkonsistent – ein Mangel, der dazu führte, dass die Programmier-Q&A-Site Stack Overflow Antworten von ChatGPT bis auf weiteres verbot.
Um die technischen Grundlagen des Wasserzeichen-Tools von OpenAI zu verstehen, ist es hilfreich zu wissen, warum Systeme wie ChatGPT so gut funktionieren wie sie. Diese Systeme verstehen Ein- und Ausgabetext als Zeichenfolgen von „Tokens“, die Wörter, aber auch Satzzeichen und Wortteile sein können. In ihrem Kern erzeugen die Systeme ständig eine mathematische Funktion, die als Wahrscheinlichkeitsverteilung bezeichnet wird, um zu entscheiden, welches Token (z. B. Wort) als nächstes ausgegeben werden soll, wobei alle zuvor ausgegebenen Token berücksichtigt werden.
Im Fall von OpenAI-gehosteten Systemen wie ChatGPT erledigt der Server von OpenAI nach der Generierung der Verteilung die Aufgabe, Token gemäß der Verteilung zu prüfen. Es gibt eine gewisse Zufälligkeit in dieser Auswahl; Aus diesem Grund kann dieselbe Texteingabeaufforderung zu einer anderen Antwort führen.
Das Wasserzeichen-Tool von OpenAI verhält sich wie ein „Wrapper“ über bestehende Texterzeugungssysteme, sagte Aaronson während des Vortrags, und nutzt eine kryptografische Funktion, die auf Serverebene läuft, um „pseudozufällig“ das nächste Token auszuwählen. Theoretisch würde der vom System generierte Text für Sie oder mich immer noch zufällig aussehen, aber jeder, der den „Schlüssel“ zur kryptografischen Funktion besitzt, könnte ein Wasserzeichen aufdecken.
„Empirisch scheinen einige hundert Token auszureichen, um ein vernünftiges Signal zu erhalten, dass dieser Text stammt [an AI system]. Im Prinzip könnte man sogar einen langen Text nehmen und isolieren, aus welchen Teilen er wahrscheinlich stammt [the system] und welche Teile wahrscheinlich nicht.“ sagte Aaronson. „[The tool] kann das Wasserzeichen mit einem geheimen Schlüssel erstellen und mit demselben Schlüssel nach dem Wasserzeichen suchen.“
Wichtige Einschränkungen
KI-generierten Text mit Wasserzeichen zu versehen ist keine neue Idee. Frühere Versuche, meist regelbasiert, haben sich auf Techniken wie Synonymersetzungen und syntaxspezifische Wortänderungen verlassen. Aber außerhalb der Theorie Forschung Der im vergangenen März vom deutschen Institut CISPA veröffentlichte OpenAI scheint einer der ersten kryptografiebasierten Ansätze für das Problem zu sein.
Als Aaronson um einen Kommentar gebeten wurde, lehnte er es ab, mehr über den Wasserzeichen-Prototypen preiszugeben, außer dass er erwartet, in den kommenden Monaten eine Forschungsarbeit mitzuverfassen. OpenAI lehnte ebenfalls ab und sagte nur, dass Wasserzeichen zu mehreren „Herkunftstechniken“ gehören, die es untersucht, um von KI erzeugte Ausgaben zu erkennen.
Unabhängige Akademiker und Branchenexperten teilten jedoch gemischte Meinungen. Sie stellen fest, dass das Tool serverseitig ist, was bedeutet, dass es nicht unbedingt mit allen texterzeugenden Systemen funktionieren würde. Und sie argumentieren, dass es für Gegner trivial wäre, dies zu umgehen.
„Ich denke, es wäre ziemlich einfach, es durch Umformulierung, Verwendung von Synonymen usw. zu umgehen“, sagte Srini Devadas, Informatikprofessor am MIT, per E-Mail gegenüber Tech. „Das ist ein bisschen Tauziehen.“
Jack Hessel, ein Forschungswissenschaftler am Allen Institute for AI, wies darauf hin, dass es schwierig sei, KI-generierten Text unmerklich mit Fingerabdrücken zu versehen, da jeder Token eine diskrete Wahl ist. Ein zu offensichtlicher Fingerabdruck könnte dazu führen, dass seltsame Wörter gewählt werden, die den Sprachfluss beeinträchtigen, während ein zu subtiler Raum für Zweifel bleiben würde, wenn der Fingerabdruck gesucht wird.
Yoav Shoham, der Mitbegründer und Co-CEO von AI21 Labs, einem Rivalen von OpenAI, glaubt nicht, dass statistische Wasserzeichen ausreichen werden, um die Quelle von KI-generiertem Text zu identifizieren. Er fordert einen „umfassenderen“ Ansatz, der unterschiedliche Wasserzeichen einschließt, bei denen verschiedene Textteile unterschiedlich mit Wasserzeichen versehen werden, und KI-Systeme, die die Quellen von Sachtexten genauer zitieren.
Diese spezielle Wasserzeichentechnik erfordert auch viel Vertrauen – und Macht – in OpenAI, stellten Experten fest.
„Ein idealer Fingerabdruck wäre für ein menschliches Lesegerät nicht wahrnehmbar und würde eine höchst zuverlässige Erkennung ermöglichen“, sagte Hessel per E-Mail. „Je nachdem, wie es eingerichtet ist, könnte es sein, dass OpenAI selbst die einzige Partei ist, die diese Erkennung zuverlässig bereitstellen kann, da der ‚Signatur‘-Prozess funktioniert.“
In seinem Vortrag räumte Aaronson ein, dass das Schema nur in einer Welt wirklich funktionieren würde, in der Unternehmen wie OpenAI bei der Skalierung hochmoderner Systeme voraus sind – und sie alle sind sich einig, verantwortungsbewusste Akteure zu sein. Selbst wenn OpenAI das Wasserzeichen-Tool mit anderen Anbietern von Texterzeugungssystemen wie Cohere und AI21Labs teilen würde, würde dies andere nicht daran hindern, es nicht zu verwenden.
„Wenn [it] zu einem Free-for-all wird, dann werden viele Sicherheitsmaßnahmen schwieriger und könnten sogar unmöglich sein, zumindest ohne staatliche Regulierung“, sagte Aaronson. „In einer Welt, in der jeder sein eigenes Textmodell bauen konnte, war das genauso gut wie [ChatGPT, for example] … was würdest du da tun?“
So spielt es sich im Text-zu-Bild-Bereich ab. Im Gegensatz zu OpenAI, dessen DALL-E 2-Bilderzeugungssystem nur über eine API verfügbar ist, hat Stability AI seine Text-zu-Bild-Technologie (genannt Stable Diffusion) als Open-Source-Quelle bereitgestellt. Während DALL-E 2 über eine Reihe von Filtern auf API-Ebene verfügt, um zu verhindern, dass problematische Bilder generiert werden (plus Wasserzeichen auf den von ihm generierten Bildern), ist dies bei der Open Source Stable Diffusion nicht der Fall. Schlechte Schauspieler haben es verwendet, um unter anderem Deepfake-Pornos zu erstellen.
Aaronson seinerseits ist optimistisch. In dem Vortrag drückte er die Überzeugung aus, dass, wenn OpenAI zeigen kann, dass Wasserzeichen funktionieren und die Qualität des generierten Textes nicht beeinträchtigen, es das Potenzial hat, ein Industriestandard zu werden.
Nicht alle sind einverstanden. Wie Devadas betont, benötigt das Tool einen Schlüssel, was bedeutet, dass es nicht vollständig Open Source sein kann – was seine Einführung möglicherweise auf Organisationen beschränkt, die einer Partnerschaft mit OpenAI zustimmen. (Wenn der Schlüssel veröffentlicht werden sollte, könnte jeder das Muster hinter den Wasserzeichen ableiten und ihren Zweck zunichte machen.)
Aber vielleicht ist es gar nicht so weit hergeholt. Ein Vertreter von Quora sagte, dass das Unternehmen daran interessiert wäre, ein solches System zu verwenden, und es wäre wahrscheinlich nicht das einzige.
„Sie könnten sich Sorgen machen, dass all dieses Zeug über den Versuch, bei der Skalierung von KI sicher und verantwortungsbewusst zu sein … sobald es den Gewinnen von Google und Meta und Alibaba und den anderen großen Akteuren ernsthaft schadet, wird vieles davon aus dem Fenster gehen, “, sagte Aaronson. „Auf der anderen Seite haben wir in den letzten 30 Jahren gesehen, dass sich die großen Internetkonzerne auf bestimmte Mindeststandards einigen können, sei es aus Angst vor Klagen, dem Wunsch, als verantwortungsbewusster Akteur wahrgenommen zu werden oder was auch immer.“