在过去的几个月里,两家与 Google 和 Anthropic 无关的开发商分别建立了 Twitch 直播,名为「Gemini Plays Pokémon」和「Claude Plays Pokémon」,任何人都可以实时观看人工智能尝试操作一款 25 年前的儿童电子游戏。最近,Google DeepMind 在一份报告中指出,Gemini 2.5 Pro 在其宝可梦濒临死亡时会陷入恐慌。
这种「恐慌」状态可能会导致模型性能下降,因为 AI 可能会在一段时间内突然停止使用某些可用的工具。虽然 AI 不会思考或体验情感,但它的行为却模仿了人类在压力下做出糟糕、草率决定的方式——这是一种令人着迷却又令人不安的反应。
报告称:「这种行为已经发生过很多次,Twitch 聊天室的成员已经注意到了它的发生。」
Claude 在关都地区的旅程中也表现出了一些奇怪的行为。有一次,AI 发现了一个规律:当所有宝可梦的生命值耗尽时,玩家角色就会「脸色苍白」,然后返回宝可梦中心。
当 Claude 被困在月山洞穴时,它错误地假设,如果它故意让所有的神奇宝贝都昏倒,那么它将被传送穿过洞穴到下一个城镇的神奇宝贝中心。然而,游戏并非如此。当玩家的所有宝可梦都死亡后,就会回到你最近使用的宝可梦中心,而不是地理位置最近的。观众们惊恐地看着游戏中的 AI 试图自杀。
尽管存在一些缺陷,但 AI 仍有一些方面可以超越人类玩家。自 Gemini 2.5 Pro 发布以来,AI 已经能够以令人印象深刻的准确率解开谜题。在一些人工的帮助下,人工智能创建了代理工具——针对特定任务的 Gemini 2.5 Pro 实例——来解决游戏中的巨石谜题并找到到达目的地的有效路线。
报告称:「仅需一个描述巨石物理的提示和一个如何验证有效路径的描述,Gemini 2.5 Pro 就能一次性解决一些复杂的巨石谜题,这些谜题是通向胜利之路所必需的。」(消息来源:cnBeta)