电子科技大学造了一个“宝可梦游戏试炼场“,测试AI的眼睛够不够用

张开发
2026/4/18 2:52:24 15 分钟阅读

分享文章

电子科技大学造了一个“宝可梦游戏试炼场“,测试AI的眼睛够不够用
这项由电子科技大学深圳信息与人工智能研究院SIAS, UESTC联合新加坡科技研究局计算智能研究院A\*STAR CFAR/IHPC共同完成的研究于2026年4月以预印本形式发布在arXiv平台编号为arXiv:2604.08340v1研究方向为计算机视觉与人工智能交叉领域。有兴趣深入了解的读者可通过该编号在arXiv.org查询完整论文。现在的AI视觉语言模型就像一个读了很多书、看了很多照片的博学学生。你给它一张猫咪的图它能告诉你这是一只橘猫正在晒太阳你问它法国大革命是什么时候它对答如流。但如果你把这个学生放进一个真实的三维世界让他靠着自己的眼睛去导航、去找人、去完成一系列任务——他会怎么表现这正是这支研究团队想要回答的问题。而他们选择的测试场地是任天堂的3D开放世界游戏《宝可梦传说Z-A》。研究团队将这套测试系统命名为**PokeGym**。它的核心思路是给AI看游戏屏幕上的原始像素画面让AI自己决定按什么键、怎么移动、去哪里找目标完全不提供任何作弊信息——不告诉AI角色坐标在哪里不告诉它面前是什么物体AI只能像真正的玩家一样靠眼睛看靠大脑想靠手虚拟手柄操作。测试结束后系统通过扫描游戏内存来自动判断任务是否完成不需要人工逐一评判既省力又客观。这套系统填补了一个长期存在的空缺。在此之前研究者们要么用简化的2D游戏来测AI视觉太简单不够真实要么虽然用了3D游戏却偷偷把角色坐标等内部数据喂给AI这样AI就不需要真正看了相当于开了上帝视角要么虽然用了真实3D游戏且只给AI看画面却需要人工一个个判断任务成功没有费时费力而且带有主观性。PokeGym同时解决了这三个问题。---一、为什么偏偏选了宝可梦游戏来折磨AI要理解PokeGym的设计逻辑不妨把AI视觉语言模型比作一个刚入职的新员工。这个新员工读过大量培训手册互联网上的海量图文数据理论知识相当扎实。但真正的工作能力要在实际工作场景中才能检验。《宝可梦传说Z-A》这款游戏之所以被选中是因为它同时具备三个让AI极度头疼的特性。第一个特性是摄像头会动。游戏里的视角不是固定的玩家可以自由旋转镜头来观察四周。这意味着AI必须主动转头才能看到更多信息——目标可能在你左边也可能被建筑物遮住了你不转动视角就永远发现不了。这跟那些固定镜头的2D游戏完全不同后者你永远知道屏幕的每个角落有什么。第二个特性是场景极其复杂。游戏里有密集的建筑群、茂密的植被、各种路人NPC、乱跑的野生宝可梦、各式各样的可互动道具还有覆盖在画面上的各种UI界面元素。场景里有多个深度层次光影会随时间变化物体之间还会相互遮挡。AI需要在这一团视觉噪音中准确找到自己的目标而不是被其他东西迷惑。第三个特性是任务进展依赖结构化剧情。和《我的世界》那种你想干嘛就干嘛的沙盒游戏不同《宝可梦传说Z-A》的进展是由任务、事件触发器和特定互动来推动的。AI不仅要能在空间里导航还要理解现在应该先完成哪个步骤才能触发下一个事件。这要求AI具备真正的长期规划能力而不只是短视地处理眼前的单步操作。---二、游戏规则是怎么设计的30个任务、三种难度模式研究团队在PokeGym里设计了30个长时序任务这些任务来自游戏里的10条主线支线任务。按照任务性质它们被分成三类导航类走到某个地方、互动类和特定物体或NPC发生互动以及混合类既要走路又要互动还可能要打架。每个任务都有明确的起始存档、明确的成功条件、以及一个固定的步骤预算大约在180到360个操作步骤之间——这是根据人类玩家的实际操作时长估算出来的。步骤一旦用完任务就判定失败。更有意思的是每个任务都有三种指令版本形成了三个递进的难度层次专门用来拆解AI的不同能力。最简单的版本叫做视觉引导模式指令会详细描述每一步要做什么并且给出视觉锚点比如走近那扇有门牌号的棕色木门进入后找到站在前台背后的旅馆老板。这个模式考验的是AI把语言描述转化为像素级视觉搜索的能力——说白了就是我告诉你看什么你能不能准确找到。中等难度的版本叫步骤引导模式指令保留了每个步骤要干什么但去掉了那些视觉线索比如走进房子的门找到并和旅馆老板说话。这时候AI不再知道棕色木门在哪必须靠自己的常识和语义理解去判断——一般旅馆的前台大概长什么样在哪个方向最难的版本叫仅目标模式只告诉AI最终目标比如找到旅馆老板并和他说话。AI必须自行分解目标、自行规划路线、自行探索空间就像一个第一次来到陌生城市却只知道我要去找个叫老王的人的旅行者。这个模式考验的是AI完整的自主探索和长期规划能力。---三、让AI玩游戏需要一套精密的机器系统架构解析PokeGym的运行需要四个部分协同工作就像一场戏剧演出需要演员、剧本、舞台和评委各司其职。演员是AI视觉语言模型本身。每隔一定的时间步系统就截取当前游戏画面还可以额外提供上一帧画面和左右两侧的侧视角画面共四张图把这些画面连同任务指令一起送给AI让AI决定下一步怎么做。关键在于这些画面是直接从游戏的GPU纹理里取出来的不经过操作系统层面的截图这样可以减少延迟、避免窗口遮挡问题而且绝对不会把任何游戏内部状态数据如坐标、地图ID混入画面提供给AI。舞台是Ryujinx模拟器这是一个开源的任天堂Switch模拟器游戏就在它上面运行。AI的决策会被转换为具体的按键操作发送给模拟器。这里有两种操作模式一种是预定义的高级动作比如前进、向右转、按A键系统会把它们转换为固定时长的按键另一种是参数化控制AI直接指定摇杆的角度X和Y轴各在-1.0到1.0之间和持续时间控制更精细但也更难。对于需要快速反应的战斗场景系统还有一个自适应暂停机制——在AI思考的时候游戏暂停AI给出决策后游戏继续这样不同AI的思考速度快慢就不会影响测试公平性。评委是一套完全独立的自动评估系统。它通过字节数组扫描Array of BytesAOB技术在游戏启动时扫描内存找到与地图ID、角色坐标、任务标志相对应的内存地址然后持续监控这些数值。当任务成功条件满足时比如角色坐标落入特定区域的边界框内或某个任务标志位被触发评估系统立即判定任务成功。这些内存数值只用于评判绝对不会提供给AI。AI的大脑里还有一个可选的自我反思模块。每隔5个决策步骤系统会触发一次反思流程让AI回顾最近的行动历史评估当前策略是否有效更新短期记忆并把有价值的经验教训写入长期的经验库支持新增、删除、修改、保留四种操作。这种机制让AI能够在没有人类介入的情况下在任务进行中不断迭代优化自己的策略。---四、这套测试场到底有多难用数字来感受一下研究团队专门做了一个数学分析来直观展示PokeGym对AI的挑战程度。先看空间状态的复杂度。游戏地图里任何一个位置加上角色朝向角度每隔1度算一个状态最小的地图有约67320种可能状态最大的地图有约870840种可能状态。AI只能靠画面来判断自己在哪里、该往哪走没有导航仪没有坐标显示。再看动作空间的复杂度。如果用预定义的7个高级动作每次决策输出3个连续动作那么每个决策点有7的3次方343种可能组合。如果用参数化控制每次决策的动作空间高达约6.38万亿种可能这对AI的精确控制能力是极端的考验。最后看决策序列的深度。最长任务有360个操作步骤。用高级动作来算整个游戏树的大小约为10的304次方用参数化控制来算约为10的1536次方。这两个数字都远远超过了宇宙中的原子总数。换句话说靠随机尝试是绝无可能完成任务的——AI必须真的懂在做什么。---五、测试结果AI们的成绩单研究团队测试了8款主流AI视觉语言模型包括开源模型GLM-4.6V、Qwen 3/3.5系列的多个版本和闭源商业模型GPT-5.2、Gemini-3-Pro、Claude-Sonnet-4.6每个任务设置重复5次取平均力求结果可靠。从整体排名看Gemini-3-Pro和GPT-5.2并列第一总体成功率均为58.70%紧随其后的是GPT-5.453.33%和Claude-Sonnet-4.653.15%。开源模型里表现最好的是Qwen3-VL-30B达到52.04%和顶尖闭源模型差距不大。表现垫底的是GPT-5.4-nano仅有36.67%。作为对比随机乱按的基线成功率只有2.22%说明这个测试根本不可能靠运气蒙过去。分任务类型看互动类任务对所有AI来说是最容易的——Gemini-3-Pro和GPT-5.2在仅目标模式下甚至达到了100%的成功率。直观理解互动类任务通常是找到这个东西按A键只要AI能准确识别目标并走到近前成功率自然高。导航类任务居中混合类任务则是所有AI的噩梦成功率普遍偏低最高也只有60%最低的Claude-Sonnet-4.6在仅目标模式下只有6.67%。三种难度模式之间的比较揭示了一个有趣的分化。Gemini-3-Pro在视觉引导模式下表现平平平均44.45%但到了步骤引导模式去掉视觉锚点反而大幅提升到74.44%导航成功率从20%跳升到70%。这说明对Gemini来说过于详细的视觉描述反而成了干扰可能让它产生错误的视觉预期。而Qwen系列模型则恰恰相反——去掉视觉锚点后Qwen3.5-122B从60%的平均成功率骤降至37.22%说明它更依赖具体的视觉描述来定位目标。---六、最关键的发现AI频繁卡住而且以两种截然不同的方式卡住研究团队在分析失败原因时发现了一个贯穿整个测试的核心问题AI最主要的失败原因不是不知道大方向该往哪走而是走着走着就被墙或障碍物卡住了然后再也出不来。更深刻的发现是成功和失败的轨迹在卡住这件事上有着截然不同的表现。成功的任务轨迹里AI也会偶尔卡住但随后的恢复率IM后立刻脱困的比例很高说明是碰一下就弹开了的短暂碰撞不影响大局。而失败的任务轨迹里最大连续无效移动次数MaxIM会大幅攀升AI会在同一个地方反复卡住像一只无头苍蝇一样打转。研究团队还测量了AI卡住时的动作熵Ent——这个指标衡量AI在卡住时候的动作有多随机。成功轨迹中卡住时的动作熵接近0说明AI在做有目的、有方向的脱困尝试。失败轨迹中动作熵显著升高比如GPT-5.2在混合任务的失败轨迹里从0跳升到1.11说明AI已经陷入了混乱的乱按状态在拼命挣扎但毫无章法。---七、强AI和弱AI以不同方式卡死一个关于自我认知的发现为了更深入理解失败的本质研究团队让GPT-5.2扮演裁判自动分析所有失败轨迹把失败原因归入四个类别。第一类叫无意识卡死AI的身体明明没动它的内心独白推理文本却在说我已经成功前进了路很畅通。它压根没意识到自己被卡住了活在虚假的进展感中。第二类叫有意识卡死AI的推理文本明确写道我发现自己被障碍物卡住了上一步没有前进但它随后的动作选择依然无法让自己脱困原地反复横跳。第三类叫迷失AI的坐标在不停变化说明身体在动但它就是找不到目标在地图里漫无目的地徘徊推理文本显示当前视野中没有目标物体。第四类叫执行失败AI已经找到了目标推理文本里写着我看到了目标就在前方但在最后几步的执行上出了问题——要么被旁边一个小花盆绊住要么在目标的触发范围边缘反复按A键却没有触发互动。这个自动分类系统对100个随机抽样的失败案例进行了人工验证微F1值达到0.7368说明分类结果是可信的。分析所有五款被深入研究的AI模型GPT-5.2、Gemini-3-Pro、Qwen3-VL、Qwen3.5-Plus、Claude执行失败是所有AI共同的最高比例失败原因这说明把我看到了目标转化为我准确地走到目标面前并正确互动这一步对所有当前AI来说都是挑战。但在卡死类型上开源和闭源模型出现了明显分化。Qwen系列等开源模型主要受无意识卡死困扰——它们感知不到自己被卡住的事实还在幻想自己在前进。而GPT-5.2则主要遭受有意识卡死——它知道自己被卡住了却找不到出路。这就像两种截然不同的困境一种是我不知道我迷路了另一种是我知道我迷路了但我不知道该怎么回家。研究者把这个现象称为元认知分化——这实际上揭示了一个关于AI自我感知能力的深层差异。---八、被卡住的三种典型场景以及为什么AI那么容易中招研究团队还收集整理了导致无意识卡死的高频障碍场景归纳出三种典型模式这些分析相当生动地展示了AI视觉理解的局限性。第一种模式叫视觉可穿透屏障。游戏里有很多这样的地方眼前有一根柱子或一道栅栏但透过它你能看到远处的草地、树木、房屋。AI会把远处的开阔空间理解为前方可以通行于是不顾眼前实际存在的物理障碍物一次次尝试向前走。Claude-Sonnet-4.6在某个场景里就是这样——左视角画面显示远处有片绿地它的推理文本写道左侧显示有开阔路径于是不断向左冲但实际上两根红色柱子之间根本过不去。第二种模式叫不规则微型几何体。AI能识别大的墙壁和建筑会绕着走。但游戏里有很多小道具——一盆植物、一个NPC、一个路边摊——这些小物件的碰撞体积往往比视觉呈现要大或者形状不规则。AI在接近目标的最后几步经常被这些小拦路虎绊住。第三种模式叫误导性可互动元素。游戏里有各种各样可以互动的对象——门、电梯、告示牌等。当AI在某个区域导航时如果视野里出现了这类可互动物体它就会产生强烈的我应该去和这个东西互动的冲动即便这个物体和当前任务毫无关系。Gemini-3-Pro曾在一段导航任务中因为右视角出现了一扇门就停下来反复尝试开门完全忘记了自己的真正目标。这三种模式共同揭示了一个深层问题当前的AI视觉语言模型对外观上可通行和物理上可通行的概念还没有建立清晰的区分它更多依赖视觉语义这块区域看起来像可走的地方而非几何物理约束这块区域的碰撞边界在哪里。---九、干预实验知道自己卡了有没有用既然卡死是核心障碍研究团队专门对GPT-5.2做了一组干预实验测试不同的脱困策略效果如何。实验条件是只要AI连续3步无效移动就触发干预同时减少等量步骤预算保证公平。纯文字提示干预的效果非常糟糕。告诉AI你被卡住了请尝试换个方向之后GPT-5.2的平均成功率反而从58.70%降到了43.33%三类任务全面下降。结合之前有意识卡死的发现这个结果说明GPT-5.2本来就已经知道自己卡住了再告诉它一遍它还是不知道该怎么办反而可能因为这个提示干扰了原本的思路。强制执行3步后退的效果明显好得多。成功率从58.70%提升到62.22%导航任务的提升尤其显著从31.67%到40.00%同时平均消耗步骤数也减少了从91.40减至85.38说明强制脱困不仅提高了成功率还让AI更高效。强制执行后退加转向的效果居中比纯文字提示好但略低于纯后退。这组实验的核心结论是当AI自己的语言理解能力不足以转化为有效的空间脱困动作时一个简单、粗暴的确定性规则往后退反而比任何语言指导都更管用。物理层面的解决方案胜过了认知层面的提醒。---十、左右视角、回顾历史帧、反思模块这些加分项效果如何研究团队还做了一系列消融实验研究不同的辅助信息对GPT-5.2表现的影响。关于左右侧视角的问题结论是对互动任务很有帮助但对导航任务有害。加入左右视角后互动任务成功率从46.67%跳升至86.67%甚至在有历史帧辅助时达到93.33%。但导航任务的成功率却下降了。可能的解释是互动任务需要看清目标物体周围的情况侧视角拓展了视野大有帮助但导航任务需要专注于正前方的路径侧视角引入了额外的视觉信息可能造成分散注意力的效果。关于回顾上一帧历史画面的问题效果则非常稳定在所有场景下都有正向或中性的影响。特别是混合任务在没有侧视角的情况下仅加入历史帧就让成功率从33.33%跳升至73.33%。这说明把当前画面和刚才的画面做对比看看自己刚才的动作是否有效果是AI维持跨步骤一致性的重要手段。关于自我反思模块的有效性结论是因模型能力而异对弱模型可能适得其反。对Gemini-3-Pro来说加入反思模块后平均成功率从58.70%提升到65.93%同时步骤数减少说明反思真的让它更高效了。但对Qwen3-VL而言反思模块导致混合任务成功率从44.44%骤降到28.89%Qwen3.5-Plus的导航任务也有所下降。更值得关注的是所有被测试的AI在混合任务上都无法从反思中获益。混合任务涉及场景的剧烈转换比如从街道导航突然切入宝可梦对战再回到导航历史经验在这种情况下不仅无用反而会让AI倾向于沿用已经不适用的旧策略。---十一、PokeGym的成绩与其他AI测试的关系一张相关性地图研究团队把PokeGym的8款模型成绩与8套主流AI评测包括MMMU-Pro、VideoMMMU、ScreenSpot-Pro、CharXiv-R、Humanitys Last Exam、GPQA、SWE-Bench、Text-Arena的成绩进行了交叉相关分析。这张相关性地图揭示了一些值得深思的模式。互动类任务与大部分外部测试呈正相关相关系数在0.63到0.88之间。这说明互动任务考察的能力识别目标、走到近前、正确操作和主流评测考察的能力有相当大的重叠。换言之总体上更强的AI在互动任务上也确实表现更好。导航类任务则与几乎所有外部测试呈负相关或接近零相关包括与MMMU-Pro-0.42、VideoMMMU-0.41、ScreenSpot-Pro-0.80等。这是一个很重要的发现在主流评测上得分高根本不能预测AI在三维空间导航上的表现。导航需要的是持久的空间记忆、路径规划、障碍规避和稳定的长时序控制——这些能力在当前主流评测中几乎没有被系统测量过。视觉引导模式整体上与外部测试呈负相关最低达到-0.66对应Text-Arena。这个反常现象说明那些在文字交互测试里表现强的模型在需要把细粒度视觉描述精确对应到像素操作的场景下反而表现不佳。文字能力和视觉锚定能力是两套相对独立的技能。---说到底PokeGym这项研究告诉了我们一件颇为有趣的事我们以为AI视觉语言模型已经相当聪明了——能看图、能答题、能写文章——但一旦让它活在一个真实的三维世界里靠眼睛看、靠手操作、一步步完成长链任务它立刻就暴露出了根本性的短板。最顶尖的AI成功率也不超过60%而且最主要的失败原因不是不知道去哪而是走着走着就卡在了一个角落里出不来了。更耐人寻味的是那个元认知分化较弱的AI不知道自己卡住了较强的AI知道自己卡住了但不知道怎么出来。这两种困境指向同一个结论当前AI缺乏真正的空间直觉——那种人类婴儿期就通过爬行和触碰积累起来的、对物体碰撞和空间边界的本能感知。这对AI未来的发展方向有明确的启示光靠在大量图文数据上做预训练是不够的AI还需要获得某种形式的具身物理经验才能真正理解我被墙挡住了和我应该往左绕之间的因果关系。对于普通读者来说这项研究意味着当有人告诉你AI现在很强了什么都会的时候你可以说——好让它在游戏里找个NPC说话试试要靠自己的眼睛不许用地图导航。有兴趣深入了解的读者可以在arXiv.org上通过编号arXiv:2604.08340查找完整论文标题为《PokeGym: A Visually-Driven Long-Horizon Benchmark for Vision-Language Models》。---QAQ1PokeGym和之前的AI游戏测试有什么不同APokeGym最核心的区别有三点。第一游戏环境是真实的3D开放世界《宝可梦传说Z-A》而非简化的2D格子世界视觉复杂度接近真实世界。第二AI只能看屏幕画面没有任何坐标、地图等上帝视角数据彻底排除了作弊可能。第三任务成功与否通过扫描游戏内存来自动判断完全不需要人工评审可以大规模运行。这三个特点在此前的评测系统中从未被同时满足。Q2AI在宝可梦游戏里卡死是什么意思为什么这个问题这么重要A卡死是指AI发出了移动指令但角色因为被墙壁或障碍物挡住而完全没有移动。这个问题之所以重要是因为研究发现它和任务失败率有极强的统计关联皮尔逊相关系数达到-0.52到-0.65。更关键的是失败轨迹里AI会陷入长时间连续卡死并做出混乱的随机动作说明AI缺乏真正的空间感知能力来识别和解决碰撞问题。Q3测试中表现最好的AI模型是哪个AGemini-3-Pro和GPT-5.2并列第一总体任务成功率均为58.70%。两者各有优势Gemini-3-Pro在去掉视觉提示的步骤引导模式下表现尤为突出74.44%对语义理解依赖更强GPT-5.2在互动类任务的仅目标模式下达到100%成功率目标识别和操作能力较强。开源模型里最强的是Qwen3-VL-30B以52.04%的成功率位列第五和顶级闭源模型差距不大。

更多文章