Anthropisch verwendete Pokémon, um sein neuestes KI -Modell zu bewerten. Ja, wirklich.
In einem Blog Post Anthropic veröffentlichte am Montag, sagte, es habe sein neuestes Modell Claude 3.7 Sonnet auf dem Game Boy Classic Pokémon Red getestet. Das Unternehmen hat das Modell mit Basisspeicher, Bildschirmpixeleingabe und Funktionsaufrufen ausgestattet, um Schaltflächen zu drücken und um den Bildschirm zu navigieren, sodass es Pokémon kontinuierlich abspielen kann.
Ein einzigartiges Merkmal von Claude 3.7 Sonett ist seine Fähigkeit, sich auf „erweitertes Denken“ einzulassen. Wie Openais O3-Mini und Deepseeks R1 kann Claude 3.7 Sonett durch anspruchsvolle Probleme „begründen“, indem sie mehr Computer anwendet-und mehr Zeit in Anspruch nehmen.
Das war offenbar in Pokémon Red nützlich.
Im Vergleich zu einer früheren Version von Claude, Claude 3.0 Sonett, die das Haus in der Palettenstadt nicht verlassen konnte, kämpfte Claude 3.7 Sonnet erfolgreich um drei Führer der Pokémon -Fitnessstudio und gewann ihre Abzeichen.
Jetzt ist nicht klar, wie viel Computer erforderlich war, damit Claude 3.7 Sonett diese Meilensteine erreicht hat – und wie lange sie dauerten. Anthropic sagte nur, dass das Modell 35.000 Aktionen ausführte, um den letzten Fitnessstudio -Führer Surge zu erreichen.
Es wird sicherlich nicht lange dauern, bis ein unternehmungslustiger Entwickler es herausfindet.
Pokémon Red ist eher ein Spielzeugbenchmark als alles andere. Dort jedoch Ist eine lange Geschichte von Spielen, die für KI -Benchmarking -Zwecke verwendet werden. Allein in den letzten Monaten haben sich eine Reihe neuer Apps und Plattformen auf die Spiele des Models auf den Titeln von Titeln von Tital-Spielen entwickelt Straßenkämpfer zu pictionary.