Google macht SynthID Text, seine Technologie, die es Entwicklern ermöglicht, von generativen KI-Modellen generierten Text mit Wasserzeichen zu versehen und zu erkennen, allgemein verfügbar.
SynthID Text kann von der AI-Plattform heruntergeladen werden Umarmendes Gesicht und Google ist aktualisiert Verantwortliches GenAI-Toolkit.
„Heute stellen wir unser Wasserzeichen-Tool SynthID Text als Open Source zur Verfügung“, schrieb das Unternehmen in einem Post auf X. „Es steht Entwicklern und Unternehmen kostenlos zur Verfügung und hilft ihnen, ihre KI-generierten Inhalte zu identifizieren.“
Wie funktioniert es also?
Bei einer Aufforderung wie „Was ist Ihre Lieblingsfrucht?“ sagen textgenerierende Modelle voraus, welches „Token“ am wahrscheinlichsten auf das andere folgt – ein Token nach dem anderen. Token sind die Bausteine, die ein generatives Modell zur Verarbeitung von Informationen verwendet. Dabei kann es sich um ein einzelnes Zeichen, ein Wort oder einen Teil einer Phrase handeln.
Das Modell weist jedem möglichen Token eine Punktzahl zu, die der prozentualen Wahrscheinlichkeit entspricht, dass es im ausgegebenen Text enthalten ist. Laut Google fügt SynthID Text zusätzliche Daten in diese Token-Verteilung ein, indem es „die Wahrscheinlichkeit der Token-Generierung moduliert“.
„Das endgültige Bewertungsmuster für beide Wortwahlen des Modells in Kombination mit den angepassten Wahrscheinlichkeitsbewertungen wird als Wasserzeichen betrachtet“, schrieb das Unternehmen in einem Blogbeitrag. „Dieses Bewertungsmuster wird mit dem erwarteten Bewertungsmuster für Text mit und ohne Wasserzeichen verglichen und hilft SynthID dabei, zu erkennen, ob der Text von einem KI-Tool generiert wurde oder ob er möglicherweise aus anderen Quellen stammt.“
Google behauptet, dass SynthID Text, das seit diesem Frühjahr in seine Gemini-Modelle integriert ist, keine Kompromisse bei der Qualität, Genauigkeit oder Geschwindigkeit der Textgenerierung eingeht und sogar bei Texten funktioniert, die beschnitten, paraphrasiert oder geändert wurden.
Das Unternehmen räumt jedoch auch ein, dass seine Wasserzeichentechnologie Einschränkungen aufweist.
Beispielsweise schneidet SynthID Text bei kurzen Texten oder Texten, die aus einer anderen Sprache umgeschrieben oder übersetzt wurden, und bei Antworten auf sachliche Fragen nicht so gut ab. „Bei Antworten auf sachliche Aufforderungen gibt es weniger Möglichkeiten, die Token-Verteilung anzupassen, ohne die sachliche Richtigkeit zu beeinträchtigen“, erklärt das Unternehmen. „Dazu gehören auch Fragen wie ‚Was ist die Hauptstadt Frankreichs?‘ oder Anfragen, bei denen kaum oder gar keine Abwechslung zu erwarten ist, wie zum Beispiel „Rezitiere ein Gedicht von William Wordsworth.“