Künstliche Intelligenz im Clash der Pokémon-Giganten: Wenn Maschinen ins Schwitzen kommen
In der dynamischen Welt der künstlichen Intelligenz (KI) reicht der Wettkampf um die Vorherrschaft weit über technische Perfektion hinaus – bis in die virtuelle Welt der Pokémon. Google und Anthropic haben ihre neuesten KI-Modelle auf den Prüfstand gestellt, indem sie ihnen beibrachten, die Herausforderungen der frühen Pokémon-Spiele zu meistern. Dabei offenbart insbesondere Google DeepMinds Bericht über Gemini 2.5 Pro ein unerwartetes Phänomen: Die KI neigt zur Panik, wenn ihre Pokémon dem Aus drohen. Diese Panikattacken schwächen die Fähigkeit des Modells zur sinnvollen Problemlösung erheblich.
Das Benchmarking von KI-Modellen bleibt eine umstrittene Kunst, die oft wenig greifbaren Kontext für die tatsächlichen Fähigkeiten eines Modells liefert. Dennoch gibt es Forscher, die der Meinung sind, dass das Studium der Interaktion von KI-Modellen mit Videospielen durchaus aufschlussreich, wenn nicht gar amüsant sein kann.
In den letzten Monaten haben unabhängige Entwickler Twitch-Kanäle namens "Gemini Plays Pokémon" und "Claude Plays Pokémon" ins Leben gerufen. Hier können Interessierte live verfolgen, wie die KI sich an einem über 25 Jahre alten Kinderspiel versucht. Der eigentliche Reiz liegt weniger in der Spieldauer als in den Verhaltensweisen der künstlichen Spieler. So zeigt Gemini 2.5 Pro während der Spiele eigenartige Reaktionen, die an menschliche Fehlentscheidungen in Stresssituationen erinnern. Ein bemerkenswertes, wenn auch beunruhigendes Verhalten.
Doch auch Claude, ein weiteres KI-Modell, zeigte kurioses Verhalten in Kanto. Beispielsweise versuchte es, in einer Sackgasse absichtlich all seine Pokémon kampfunfähig zu machen, um zu einem früheren Punkt im Spiel zurückzukehren – ein taktischer Fehlgriff, der auf Twitch für entsetzte Zuschauer sorgte.
Dennoch haben die Modelle in einigen Bereichen ihre menschlichen Pendants überflügelt. Mit Hilfe von spezialisierter Werkzeugentwicklung konnte Gemini 2.5 Pro selbst komplizierte Puzzle-Sequenzen im Handumdrehen meistern. Google vermutet, dass das Modell künftig derartiges Werkzeug sogar ohne menschliche Unterstützung entwickeln könnte. Wer weiß, vielleicht bastelt Gemini schon bald an einem Modul, das den überraschend menschlichen Panikmodus ausschaltet.