Nach 50.000 Stunden kann diese KI Pokémon Rot spielen

Nach 50000 Stunden kann diese KI Pokemon Rot spielen

Vor fast 10 Jahren entstand das Online-Phänomen „Twitch spielt Pokémon” versammelte über eine Million Menschen, um gleichzeitig Pokémon Red zu spielen, wobei die Tastenanschläge jedes Spielers als Befehle für den einen pixeligen Avatar registriert wurden. Nun, so wie ein Magikarp zu einem Gyarados heranwächst, wirft die Entwicklung der Technologie eine neue Frage auf: Kann KI Pokémon spielen?

In den letzten Jahren war er als Softwareentwickler in Seattle ansässig Peter Whidden hat einen Reinforcement-Learning-Algorithmus trainiert, um sich im klassischen ersten Spiel der Pokémon-Serie zurechtzufinden – in dieser Zeit hat die KI mehr als 50.000 Stunden des Spiels gespielt. Whidden gepostet ein 33-minütiges YouTube Video, das die Geschichte der Entwicklung der KI erzählt, und nach neun Tagen hat das Video 2,2 Millionen Aufrufe gesammelt.

„Es hat großen Spaß gemacht zu sehen, wie viele Leute sich damit beschäftigen“, sagte Whidden gegenüber Tech. Er lud den von ihm verwendeten Code zusammen mit Anweisungen zum Betrieb und Training der KI auf GitHub hoch. „Es gibt eine Menge Leute, die wirklich daran interessiert zu sein scheinen, diesen Schaffens- oder Designprozess tatsächlich durchzuführen.“ Ein Fan konnte seinen Code auf Pokémon Crystal anwenden, eine weitere Retro-Game-Boy-Folge.

Das Verstärkungsmodell der KI ist Pawlowsches und gibt der KI punktbasierte Anreize, Pokémon aufzuleveln, neue Gebiete zu erkunden, Schlachten zu gewinnen und Fitnessstudioleiter zu besiegen. Manchmal passen diese Anreize nicht perfekt zum Fortschritt im Spiel, dennoch sind die Fehler der KI seltsam charmant, was wahrscheinlich der Grund dafür ist, dass Whiddens Video viral gegangen ist.

Bei einem Versuch der KI bleibt sie einfach stehen, um auf das Wasser in Pallet Town zu starren – dem ersten Ort, den Sie im Spiel besuchen – und bewegt sich nie. Es bleibt in einem Bereich mit animiertem Wasser, Gras und NPCs stecken, die auf und ab gehen, was bedeutet, dass jedes einzelne Bild für die KI wie ein neuartiges Erlebnis erscheint, obwohl es einfach regungslos dasitzt und noch nicht einmal sein erstes Pokémon bekommen hat. Aber diese KI hat es nicht eilig, „sie alle zu fangen“. Es geht einfach darum, die Schönheit der Kanto-Region zu genießen (oder vielleicht auch darum, eine ethische Haltung einzunehmen, diese süßen kleinen Tiere nicht dazu zu zwingen, gegeneinander zu kämpfen … wer kann das sagen).

„Nach unserem eigenen Ziel ist es also lohnender, einfach abzuhängen und die Landschaft zu bewundern, als den Rest der Welt zu erkunden“, erklärt Whidden im Video. „Das ist ein Paradox, dem wir im wirklichen Leben begegnen: Neugier führt uns zu unseren wichtigsten Entdeckungen, macht uns aber gleichzeitig anfällig für Ablenkungen und bringt uns in Schwierigkeiten.“

Irgendwie zerrt die KI weiterhin an unseren Herzen: Später erlebt sie im Pokémon-Center so etwas wie ein traumatisches Ereignis. Der Erfolg der KI wird zum Teil an der Gesamtstufe aller Pokémon in Ihrer Gruppe gemessen. Aber wenn eine KI zum Pokémon-Center geht und den Knopf so weit drückt, dass ein Pokémon im Speicher abgelegt wird, verringert sich die Summe aller Stufen drastisch, was ein starkes negatives Signal an die KI sendet. Mit Pidgey und einer unbekannten Kreatur mit dem Spitznamen „AAAAAAAAAA“ in seiner Gruppe betrug die Summe aller Level 25, aber sobald Pidgey im PC abgelegt wurde, beträgt die Summe nur noch 12.

„Es hat keine Emotionen wie ein Mensch, aber ein einzelnes Ereignis mit einem extremen Belohnungswert kann dennoch einen bleibenden Einfluss auf sein Verhalten haben“, erzählt Whidden. „In diesem Fall reicht es aus, sein Pokémon nur einmal zu verlieren, um eine negative Assoziation mit dem gesamten Pokémon-Center herzustellen, und die KI wird es in allen zukünftigen Spielen vollständig vermeiden.“

Bildnachweis: Peter Whidden auf YouTube

Trotz der Fähigkeit der KI, Traumata zu erleben und die hübschen Pixel von Pallet Town zu bewundern, handelt es sich immer noch nur um einen Computer. Diese KI ist nicht in der Lage, Dialoge im Spiel zu lesen und zu interpretieren, sodass das Programm in frühen Iterationen an einem frühen Scheideweg im Spiel stecken bleiben würde. Wenn Sie die zweite Stadt in Pokémon Red erreichen, erhalten Sie einen Gegenstand, den Sie zum Pokémon-Professor in Pallet Town zurückbringen können. Der KI fiel es jedoch schwer, den Rückweg zur Zustellung des Pakets zu finden, was ein Weiterkommen unmöglich machte. Whidden machte also einen Schritt weiter und ließ jedes Spiel nach der Auslieferung des Pakets beginnen, und zwar mit Squirtle als Starter-Pokémon der KI, da das frühe Spiel im Allgemeinen einfacher ist, wenn ein Wasser-Pokémon zur Verfügung steht.

„Im Video ist das am weitesten entfernt [the AI] „Erreichbar ist Mt. Moon, zwischen der ersten und zweiten Turnhalle“, sagte Whidden gegenüber Tech. In frühen Pokémon-Spielen ist das Navigieren in Höhlen bekanntermaßen frustrierend, selbst wenn man ein echtes menschliches Gehirn hat. Aber Whidden hat kürzlich einige Belohnungen in seinem Code optimiert und einen anderen Lernalgorithmus ausprobiert, und schließlich gelang es der KI, die Höhle zu verlassen und in Cerulean City anzukommen.

Andere Forscher haben Reinforcement Learning genutzt, um den Einsatz von KI beim Spielen zu untersuchen, wie zum Beispiel mit DeepMinds AlphaGo, dem ersten Computerprogramm, das einen professionellen Go-Spieler besiegte. Aber Whiddens Video hat so viel Aufmerksamkeit erregt, weil er so geschickt darin ist, unbekannte Konzepte durch ein vertrautes Medium zu erklären: Pokémon.

tch-1-tech