Anfang dieser Woche veröffentlichte DeepSeek, ein gut ausgestattetes chinesisches KI-Labor, ein „offenes“ KI-Modell, das viele Konkurrenten bei beliebten Benchmarks übertrifft. Das Modell DeepSeek V3 ist groß, aber effizient und erledigt textbasierte Aufgaben wie Codieren und Schreiben von Aufsätzen problemlos.
Es scheint auch zu glauben, dass es sich um ChatGPT handelt.
Beiträge An X – und TechCrunchs eigene Tests – zeigen, dass DeepSeek V3 sich als ChatGPT identifiziert, die KI-gestützte Chatbot-Plattform von OpenAI. Auf die Bitte um Erläuterungen besteht DeepSeek V3 darauf, dass es sich um eine Version des GPT-4-Modells von OpenAI handelt, das 2023 veröffentlicht wurde.
Dies reproduziert sich tatsächlich ab heute. In 5 von 8 Generationen behauptet DeepSeekV3, ChatGPT (v4) zu sein, während es nur dreimal behauptet, DeepSeekV3 zu sein.
Gibt Ihnen eine ungefähre Vorstellung von der Verteilung ihrer Trainingsdaten. https://t.co/Zk1KUppBQM pic.twitter.com/ptIByn0lcv
— Lucas Beyer (bl16) (@giffmana) 27. Dezember 2024
Die Wahnvorstellungen sitzen tief. Wenn Sie DeepSeek V3 eine Frage zur API von DeepSeek stellen, erhalten Sie Anweisungen zur Verwendung OpenAIs API. DeepSeek V3 sagt sogar einiges davon Witze als GPT-4 – bis hin zu den Pointen.
Was ist denn los?
Modelle wie ChatGPT und DeepSeek V3 sind statistische Systeme. Anhand von Milliarden von Beispielen lernen sie Muster in diesen Beispielen, um Vorhersagen zu treffen – etwa wie „an wen“ in einer E-Mail normalerweise vor „es könnte etwas betreffen“ steht.
DeepSeek hat nicht viel über die Quelle der Trainingsdaten von DeepSeek V3 preisgegeben. Aber es gibt kein Mangel von öffentlichen Datensätzen mit Text, der von GPT-4 über ChatGPT generiert wurde. Wenn DeepSeek V3 darauf trainiert worden wäre, hätte sich das Modell möglicherweise einige der GPT-4-Ausgaben gemerkt und gibt sie nun wörtlich wieder.
„Offensichtlich sieht das Modell irgendwann rohe Antworten von ChatGPT, aber es ist nicht klar, wo das ist“, sagte Mike Cook, ein auf KI spezialisierter Forschungsstipendiat am King’s College London, gegenüber Tech. „Es könnte ‚zufällig‘ sein … aber leider haben wir Fälle gesehen, in denen Leute ihre Modelle direkt auf die Ausgaben anderer Modelle trainierten, um zu versuchen, ihr Wissen zu nutzen.“
Cook wies darauf hin, dass die Praxis, Modelle anhand der Ergebnisse konkurrierender KI-Systeme zu trainieren, „sehr schlecht“ für die Modellqualität sein kann, da sie zu Halluzinationen und irreführenden Antworten wie den oben genannten führen kann. „Wie beim Anfertigen einer Fotokopie einer Fotokopie verlieren wir immer mehr Informationen und den Bezug zur Realität“, sagte Cook.
Es könnte auch gegen die Nutzungsbedingungen dieser Systeme verstoßen.
Die Bedingungen von OpenAI verbieten Benutzern seiner Produkte, einschließlich ChatGPT-Kunden, die Verwendung von Ausgaben zur Entwicklung von Modellen, die mit den eigenen von OpenAI konkurrieren.
OpenAI und DeepSeek reagierten nicht sofort auf Anfragen nach Kommentaren. Sam Altman, CEO von OpenAI, veröffentlichte jedoch etwas, das wie ein … aussah graben bei DeepSeek und anderen Konkurrenten am X-Freitag.
„Es ist (relativ) einfach, etwas zu kopieren, von dem man weiß, dass es funktioniert“, schrieb Altman. „Es ist extrem schwer, etwas Neues, Riskantes und Schwieriges zu tun, wenn man nicht weiß, ob es funktionieren wird.“
Zugegeben, DeepSeek V3 ist bei weitem nicht das erste Modell, das sich falsch identifiziert. Googles Gemini und andere Manchmal behaupten, es handele sich um Konkurrenzmodelle. Zum Beispiel in Mandarin, Gemini sagt dass es sich um den Wenxinyiyan-Chatbot des chinesischen Unternehmens Baidu handelt.
Und das liegt daran, dass das Internet, aus dem KI-Unternehmen den Großteil ihrer Trainingsdaten beziehen, sich immer weiter entwickelt übersät mit KI Gefälle. Content-Farmen nutzen KI zur Erstellung Clickbait. Bots überfluten Reddit Und X. Um eins schätzenBis 2026 könnten 90 % des Webs KI-generiert sein.
Diese „Kontamination“, wenn man so will, hat es geschafft ziemlich schwierig um KI-Ausgaben aus Trainingsdatensätzen gründlich zu filtern.
Es ist durchaus möglich, dass DeepSeek DeepSeek V3 direkt anhand von ChatGPT-generiertem Text trainiert hat. Google war einmal beschuldigt schließlich das Gleiche zu tun.
Heidy Khlaaf, leitende KI-Wissenschaftlerin am gemeinnützigen AI Now Institute, sagte, dass die Kosteneinsparungen durch die „Destillation“ des Wissens eines vorhandenen Modells für Entwickler unabhängig von den Risiken attraktiv sein können.
„Selbst wenn Internetdaten jetzt voller KI-Ausgaben sind, würden andere Modelle, die versehentlich auf ChatGPT- oder GPT-4-Ausgaben trainierten, nicht unbedingt Ausgaben zeigen, die an benutzerdefinierte OpenAI-Nachrichten erinnern“, sagte Khlaaf. „Wenn DeepSeek die Destillation teilweise mithilfe von OpenAI-Modellen durchgeführt hätte, wäre das nicht überraschend.“
Wahrscheinlicher ist jedoch, dass viele ChatGPT/GPT-4-Daten Eingang in das DeepSeek V3-Trainingsset gefunden haben. Das bedeutet zum einen, dass man dem Modell nicht vertrauen kann, dass es sich selbst identifiziert. Noch besorgniserregender ist jedoch die Möglichkeit, dass DeepSeek V3 durch die unkritische Übernahme und Iteration der GPT-4-Ausgaben einige Probleme des Modells verschlimmern könnte Vorurteile Und Mängel.