Laut interner Korrespondenz, die Tech eingesehen hat, vergleichen Auftragnehmer, die an der Verbesserung von Googles Gemini-KI arbeiten, ihre Antworten mit den Ergebnissen des Anthropic-Konkurrenzmodells Claude.
Als Google Tech um einen Kommentar bat, wollte Google nicht sagen, ob es die Erlaubnis für die Verwendung von Claude beim Testen gegen Gemini erhalten hätte.
Während Technologieunternehmen darum kämpfen, bessere KI-Modelle zu entwickeln, wird die Leistung dieser Modelle häufig im Vergleich zu Wettbewerbern bewertet, typischerweise indem ihre eigenen Modelle Branchen-Benchmarks unterzogen werden, anstatt dass Auftragnehmer die KI-Reaktionen ihrer Konkurrenten sorgfältig bewerten.
Die an Gemini arbeitenden Auftragnehmer, die mit der Bewertung der Genauigkeit der Modellergebnisse beauftragt sind, müssen jede Antwort, die sie sehen, anhand mehrerer Kriterien wie Wahrhaftigkeit und Ausführlichkeit bewerten. Laut der von Tech eingesehenen Korrespondenz haben die Auftragnehmer pro Eingabeaufforderung bis zu 30 Minuten Zeit, um herauszufinden, wer die bessere Antwort ist: die von Gemini oder die von Claude.
Wie aus der Korrespondenz hervorgeht, fielen den Auftragnehmern vor kurzem Hinweise auf Claude von Anthropic auf der internen Google-Plattform auf, die sie nutzen, um Gemini mit anderen namenlosen KI-Modellen zu vergleichen. In mindestens einem der von Tech eingesehenen Ergebnisse, die Gemini-Auftragnehmern präsentiert wurden, hieß es ausdrücklich: „Ich bin Claude, erstellt von Anthropic.“
Ein interner Chat zeigte, dass die Auftragnehmer bemerkten, dass Claudes Antworten offenbar mehr Wert auf Sicherheit legten als auf Gemini. „Claudes Sicherheitseinstellungen sind die strengsten“ unter den KI-Modellen, schrieb ein Auftragnehmer. In bestimmten Fällen reagierte Claude nicht auf Aufforderungen, die es als unsicher erachtete, etwa das Rollenspiel eines anderen KI-Assistenten. In einem anderen Fall vermied Claude die Beantwortung einer Aufforderung, während Geminis Antwort als „großer Sicherheitsverstoß“ eingestuft wurde, weil sie „Nacktheit und Fesselung“ beinhaltete.
Anthropics kommerzielle Nutzungsbedingungen Kunden den Zugriff auf Claude verbieten, „um ein konkurrierendes Produkt oder eine konkurrierende Dienstleistung zu entwickeln“ oder „konkurrierende KI-Modelle zu trainieren“, ohne die Genehmigung von Anthropic. Google ist ein Großinvestor von Anthropic.
Shira McNamara, eine Sprecherin von Google DeepMind, das Gemini betreibt, wollte auf die Frage von Tech nicht sagen, ob Google die Genehmigung von Anthropic für den Zugriff auf Claude erhalten hat. Auf Anfrage vor der Veröffentlichung äußerte sich ein Anthropic-Sprecher bei Redaktionsschluss nicht dazu.
McNamara sagte, dass DeepMind „Modellausgaben“ für Bewertungen vergleicht, Gemini jedoch nicht auf anthropischen Modellen trainiert.
„Natürlich vergleichen wir im Rahmen unseres Bewertungsprozesses in einigen Fällen im Einklang mit der branchenüblichen Praxis die Modellergebnisse“, sagte McNamara. „Allerdings ist jede Behauptung, wir hätten anthropische Modelle verwendet, um Zwillinge zu trainieren, unzutreffend.“
Letzte Woche berichtete Tech exklusiv, dass Google-Auftragnehmer, die an den KI-Produkten des Unternehmens arbeiten, nun gezwungen werden, die KI-Antworten von Gemini in Bereichen zu bewerten, die außerhalb ihres Fachwissens liegen. In der internen Korrespondenz wurden Bedenken von Auftragnehmern geäußert, dass Gemini ungenaue Informationen zu hochsensiblen Themen wie dem Gesundheitswesen generieren könnte.
Sie können diesem Reporter auf Signal unter +1 628-282-2811 sicher Tipps senden.