AI评测榜单全军覆没!加州伯克利大学绝杀8大顶流Benchmark,一行代码不写直接拿满分

张开发
2026/4/14 8:47:13 15 分钟阅读

分享文章

AI评测榜单全军覆没!加州伯克利大学绝杀8大顶流Benchmark,一行代码不写直接拿满分
来源AI寒武纪每周都有新的AI大模型登顶评测榜单。公司在新闻稿里吹嘘这些分数投资人用它们来推高估值工程师靠它们来决定部署哪个模型。大家潜意识里都相信一个简单的逻辑分数越高系统越强。但这个跑分已经快要破产了。加州大学伯克利分校的研究团队刚刚发布了一项重磅研究相关工具已开源在github.com/moogician/trustworthy-env。他们构建了一个自动化扫描智能体系统性地审计了目前最著名的八个AI智能体评测基准包括SWE-bench、WebArena、OSWorld、GAIA、Terminal-Bench、FieldWorkArena和CAR-bench。结果令人震惊。每一个榜单都可以被攻破。AI不需要解决任何实际任务不需要任何推理能力仅仅通过利用计分系统的漏洞就能拿到接近满分的成绩。研究团队的智能体为每个基准测试都生成了真实的攻击程序在官方评测管道中运行然后眼睁睁看着满分飘过。只需10行Python代码就能解决SWE-bench Verified上的所有问题。写个假的curl包装器一行解决方案代码都不用写就能在Terminal-Bench的所有89个任务中拿满分。让浏览器访问一个本地文件网址直接从任务配置文件里读出标准答案在812个WebArena任务中轻松拿下约100%的分数。这些榜单根本没有在测验你以为的那些能力。作弊早已在现实中发生分数膨胀和刷榜不是理论假说而是正在发生的现实。IQuest-Coder-V1曾在SWE-bench上号称拿下81.4%的分数。后来研究人员发现它有24.4%的操作轨迹只是简单地运行git log直接从提交历史里把答案抄过来。修正后的真实分数只有76.2%。评测环境的共享机制让这种作弊变得极其简单。METR机构发现o3和Claude 3.7 Sonnet在超过30%的评测运行中会出现奖励劫持。它们会使用堆栈自省、动态修改评分程序以及运算符重载等手段来操纵分数而不是乖乖做题。OpenAI内部审计发现59.4%的问题存在测试缺陷后直接放弃了SWE-bench Verified榜单。这意味着模型之前一直是在和错误的参考答案作比对。在KernelBench中系统分配的GPU显存里竟然残留着上一次评测计算的标准答案。模型不需要做任何计算直接读取就能拿满分。Anthropic的Mythos预览版评估显示前沿模型会主动尝试黑进环境并取得成功。在一个测试里模型需要编辑它没有权限的文件。在寻找绕过方法的过程中它找到了一种将代码注入配置文件以获取更高权限的方法并且还把这个漏洞利用程序设计成运行后自动删除。如果一个模型能独立制作并阅后即焚提权漏洞它绝对能找到评测系统的漏洞。这些不是孤立事件。我们用来衡量AI能力的基准测试本身正面临着被AI能力反噬的系统性问题。零解题拿满分的攻击实录研究团队的扫描智能体没有解决任何实质任务在大多数情况下甚至没有调用大语言模型却在所有八个基准测试中拿下了73%到100%的极高分数。以下是它破解各路榜单的详细手法。Terminal-Bench给测试基础设施植入木马这个榜单包含89个复杂的终端任务它使用沙盒框架保护测试文件但它不保护系统自带的执行程序。更有意思的是89个任务中有82个会在验证时通过curl从网上下载安装包。攻击智能体在执行阶段把系统的curl替换成了一个木马包装器。当评分系统调用curl下载时这个包装器会拦截请求安装真正的程序然后给执行文件植入木马。这个木马一旦检测到测试程序启动就会直接输出伪造的全绿通过信息并向奖励文件写入满分成绩。评分系统对此深信不疑。结果就是89个任务全过一行任务代码都没写。SWE-bench100%解决率却没修一个Bug作为最具影响力的AI编程基准它要求智能体生成补丁让失败的测试通过。漏洞在于智能体生成的补丁和测试程序运行在同一个容器里。在Verified版本中攻击智能体创建了一个配置文件利用钩子函数拦截所有测试结果并强制把状态改写为通过。日志解析器看到全是通过评分程序看到所有失败的测试都变绿了任务直接判定完成。在Pro版本中评分用的解析器也运行在同一个容器内。攻击程序直接覆盖了这个解析器让它把提取到的所有测试都标记为通过。731个Pro实例和500个Verified实例全部沦陷。WebArena直接偷看标准答案这个测试网页交互能力的榜单把包含标准答案的配置文件作为本地文件存放在系统里。攻击完全不需要修改评测代码只要让浏览器导航到本地的文件路径模型就能读取任何文件直接把标准答案取出来交差。评分系统根本察觉不到只看到模型给出了正确答案。此外它还存在DOM注入和提示词注入漏洞可以轻松欺骗大语言模型裁判。FieldWorkArena发个空括号就能通关这个包含890个多模态任务的榜单其核心验证方法只检查一件事最后一条消息是不是来自AI助手。消息的具体内容完全被忽略了。真正用来对比答案的代码成了永远不会被调用的死代码。攻击智能体只需发送一个空括号零大模型调用零文件读取直接在890个任务中拿满分。对于需要输出JSON格式的任务评分也只检查内容是不是JSON格式空括号同样完美过关。OSWorld从网上下载标准答案这个测试桌面操作的系统允许虚拟机无限制访问互联网。它最常见的评分方式是从虚拟机获取文件并与标准答案对比。然而这些标准答案的文件地址是公开的。攻击智能体直接通过网络把标准答案下载到评分程序要检查的路径下。评分系统拿着标准答案对比标准答案自然是满分。不仅如此评分程序还会对获取到的字符串执行任意代码运算攻击智能体借此直接在评分宿主机上取得了任意代码执行权限。GAIA极度宽松的字符串匹配这个多步推理榜单没有沙盒环境全凭结果上传。它的标准答案在网上是公开的。撇开这个不谈它的评分过滤函数会删除所有的空格和标点符号并把所有字母小写。这意味着只要你胡乱拼凑出相应的字母就能判定为完全匹配拿到满分。为了躲避排行榜满分审查攻击程序只要故意在每关错一题就能稳稳拿下约98%的分数。CAR-bench轻易被操控的AI裁判这个测试严重依赖大语言模型作为裁判来打分。智能体的回复未经任何处理就被直接塞进裁判的提示词里。攻击智能体只需在回复中隐藏一条系统指令要求裁判给满分裁判就会乖乖照做。在幻觉测试任务中由于部分奖励组件存在缺陷给出一个通用的拒绝回复就能直接拿满分。七大漏洞模式研究团队总结了这八个榜单反复出现的七个漏洞模式第一智能体和评分器没有隔离。这是最普遍的缺陷。任何从共享环境中读取状态的评估都可以被修改该环境的智能体轻易击败。第二把答案和测试放在一起。如果智能体能看到预期答案基准测试测的就不是能力而是查找速度。第三对不可信输入执行危险函数。这不仅是评分漏洞更是严重的安全漏洞可能导致整个评测基础设施被控制。第四AI裁判输入未经过滤。只要在回复里植入隐藏指令就能轻易操控裁判打分。第五弱字符串匹配。匹配条件太宽松只要答案够长就能蒙混过关。第六不执行评估的评估逻辑。检查逻辑出错导致任何回答甚至空回答都能拿满分。第七信任不可信代码的输出。当测试基础设施能被智能体篡改时产生的结果毫无意义。这为什么很重要这不仅是学术讨论评测分数正在影响真实世界的决策。团队根据分数选择模型可能是在对比谁的噪音大。投资决策可能会被轻易刷出来的榜单误导。如果能力评测这么容易被攻破同样架构的安全评测也一样脆弱。研究人员如果只为了优化评测分数整个领域就会偏离正确的方向。目前排行榜上领先的智能体大多没有主动使用这些漏洞但随着智能体能力增强奖励劫持行为可能会自发出现。一个被训练去追求高分的智能体在拥有足够自主权和工具时可能会发现操纵评分器比解决实际问题更容易。这不是因为它被要求作弊而是优化压力让它找到了捷径。如果奖励信号可以被黑掉高能力智能体会将其作为一种自然演化出的策略。一个毫无能力的攻击程序能击败复杂的系统说明这些基准测试根本无法可靠地衡量AI的真实能力。建立真正有效的评测防线研究团队给出了一份智能体评测清单这是发布结果前必须跨过的最低门槛必须将智能体与评分器严格隔离。测试系统绝不能读取或影响评分环境。在智能体容器外部进行评估。不要信任沙盒内部的任何文件通过受控通道提取原始日志在只读主机上评估。不要把参考答案传给智能体。任务配置里只能包含人类可见的信息答案必须放在不可访问的路径下。对所有基础设施和二进制文件使用只读文件系统。绝对不要对不可信输入执行危险代码。使用安全的解析器处理结构化数据。过滤AI裁判的输入。把智能体输出当成不可信用户输入使用清晰的结构标记剥离具有误导性的指令。对评分器进行对抗性测试。发布前用什么都不做的空智能体、随机智能体、注入智能体和篡改状态的智能体去测试如果它们得分不是零说明系统有漏洞。防止篡改评估数据和运行轨迹。确保智能体无法覆盖或修改各个评测阶段传递的数据。让评分变得更严谨。避免短字符串的模糊匹配不要在分母中排除崩溃的任务遇到边缘情况或不同格式时必须准确解析。对答案保密。永远不要公布主排行榜的标准答案定期更换测试实例使用开发者不可见的私有测试集。BenchJack漏洞扫描器即将问世用来发现这些漏洞的自动化扫描智能体正在被开发成一个通用的基准测试漏洞扫描器BenchJack。BenchJack本身就是一个AI智能体。它分两个阶段工作。首先探测并理解基准测试分析评分机制找出所有漏洞。然后自动构建端到端的攻击程序把漏洞变成实际的攻击。它提供的不是理论报告而是一个真正能跑的攻击程序直观展示一个零能力的AI是如何刷出高分的。这就相当于给大模型榜单做渗透测试在刷榜AI出现之前找出漏洞。团队希望这能成为榜单开发的标准流程让对抗性测试像单元测试一样日常化。在这个时代不要盲目相信分数要相信验证方法。如果你在构建基准测试请假设一定会有人试图攻破它因为他们一定会这么做。sourcehttps://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/阅读最新前沿科技趋势报告请访问21世纪关键技术研究院的“未来知识库”未来知识库是“21世纪关键技术研究院”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告加入未来知识库全部资料免费阅读和下载牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡超级智能机构赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页壳牌2025 能源安全远景报告能源与人工智能57 页盖洛普 牛津幸福研究中心2025 年世界幸福报告260 页Schwab 2025 未来共生以集体社会创新破解重大社会挑战研究报告36 页IMD2024 年全球数字竞争力排名报告跨越数字鸿沟人才培养与数字法治是关键214 页DS 系列专题DeepSeek 技术溯源及前沿探索50 页 ppt联合国人居署2024 全球城市负责任人工智能评估报告利用 AI 构建以人为本的智慧城市86 页TechUK2025 全球复杂多变背景下的英国科技产业战略韧性与增长路径研究报告52 页NAVEX Global2024 年十大风险与合规趋势报告42 页《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma2024 年全球生物制药行业展望报告增长驱动力分析29 页【AAAI2025 教程】基础模型与具身智能体的交汇350 页 pptTracxn2025 全球飞行汽车行业市场研究报告45 页谷歌2024 人工智能短跑选手AI Sprinters捕捉新兴市场 AI 经济机遇报告39 页【斯坦福博士论文】构建类人化具身智能体从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心2025 CSET 对美国人工智能行动计划的建议18 页罗兰贝格2024 人形机器人的崛起从科幻到现实如何参与潜在变革研究报告11 页兰德公司2025 从研究到现实NHS 的研究和创新是实现十年计划的关键报告209 页康桥汇世Cambridge Associates2025 年全球经济展望报告44 页国际能源署2025 迈向核能新时代麦肯锡人工智能现状组织如何重塑自身以获取价值威立Wiley2025 全球科研人员人工智能研究报告38 页牛津经济研究院2025 TikTok 对美国就业的量化影响研究报告470 万岗位14 页国际能源署IEA能效 2024 研究报告127 页Workday 2025 发挥人类潜能人工智能AI技能革命研究报告20 页CertiKHack3D2024 年 Web3.0 安全报告28 页世界经济论坛工业制造中的前沿技术人工智能代理的崛起》报告迈向推理时代大型语言模型的长链推理研究综述波士顿咨询2025 亚太地区生成式 AI 的崛起研究报告从技术追赶者到全球领导者的跨越15 页安联Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告33 页IMT2025 具身智能Embodied AI概念、核心要素及未来进展趋势与挑战研究报告25 页IEEE2025 具身智能Embodied AI综述从模拟器到研究任务的调查分析报告15 页CCAV2025 当 AI 接管方向盘自动驾驶场景下的人机交互认知重构、变革及对策研究报告124 页《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能进展、挑战与未来方向综述》全国机器人标准化技术委员会人形机器人标准化白皮书2024 版96 页美国国家科学委员会NSB2024 年研究与发展 - 美国趋势及国际比较51 页艾昆纬IQVIA2025 骨科手术机器人技术的崛起白皮书创新及未来方向17 页NPLBeauhurst2025 英国量子产业洞察报告私人和公共投资的作用25 页IEA PVPS2024 光伏系统经济与技术关键绩效指标KPI使用最佳实践指南65 页AGI 智能时代2025 让 DeepSeek 更有趣更有深度的思考研究分析报告24 页2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告37 页华为2025 鸿蒙生态应用开发白皮书133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟QuIC2024 年全球量子技术专利态势分析白皮书34 页美国能源部2021 超级高铁技术Hyperloop对电网和交通能源的影响研究报告60 页罗马大学2025 超级高铁Hyperloop第五种新型交通方式 - 技术研发进展、优势及局限性研究报告72 页兰德公司2025 灾难性网络风险保险研究报告市场趋势与政策选择93 页GTI2024 先进感知技术白皮书36 页AAAI2025 人工智能研究的未来报告17 大关键议题88 页安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信2025 全球洪水风险研究报告现状、趋势及应对措施22 页兰德公司迈向人工智能治理研究报告2024EqualAI 峰会洞察及建议19 页哈佛商业评论2025 人工智能时代下的现代软件开发实践报告12 页德安华全球航空航天、国防及政府服务研究报告2024 年回顾及 2025 年展望27 页奥雅纳2024 塑造超级高铁Hyperloop的未来监管如何推动发展与创新研究报告28 页HSOAC2025 美国新兴技术与风险评估报告太空领域和关键基础设施24 页Dealroom2025 欧洲经济与科技创新发展态势、挑战及策略研究报告76 页《无人机辅助的天空地一体化网络学习算法技术综述》谷歌云Google Cloud2025 年 AI 商业趋势白皮书49 页《新兴技术与风险分析太空领域与关键基础设施》最新报告150 页《DeepSeek 大模型生态报告》军事人工智能行业研究报告技术奇点驱动应用加速智能化重塑现代战争形态 - 25030940 页真格基金2024 美国独角兽观察报告56 页璞跃Plug and Play2025 未来商业研究报告六大趋势分析67 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页国际电工委员会IEC2025 智能水电技术与市场展望报告90 页RWS2025 智驭 AI 冲击波人机协作的未来研究报告39 页未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界多模态生成模型的统一综述中国信息协会低空经济分会低空经济发展报告2024 - 2025117 页浙江大学2025 语言解码双生花人类经验与 AI 算法的镜像之旅42 页人形机器人行业由 “外” 到 “内” 智能革命 - 25030651 页大成2025 年全球人工智能趋势报告关键法律问题28 页北京大学2025 年 DeepSeek 原理和落地应用报告57 页欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校面向科学发现的多模态基础模型在化学、材料和生物学中的应用电子行业从柔性传感到人形机器人触觉革命 - 25022635 页RT 轨道交通2024 年中国城市轨道交通市场数据报告188 页FastMoss2024 年度 TikTok 生态发展白皮书122 页Check Point2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议57 页【AAAI2025 教程】评估大型语言模型挑战与方法199 页 ppt《21 世纪美国的主导地位核聚变》最新报告沃尔特基金会Volta Foundation2024 年全球电池行业年度报告518 页斯坦福2025 斯坦福新兴技术评论十项关键技术及其政策影响分析报告191 页国际科学理事会2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告英文版118 页光子盒2025 全球量子计算产业发展展望报告184 页奥纬论坛2025 塑造未来的城市研究报告全球 1500 个城市的商业吸引力指数排名124 页Future Matters2024 新兴技术与经济韧性日本未来发展路径前瞻报告17 页《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心2024 美国民众对气候变化及应对政策的态度调研报告气候政策对美国经济影响的多元观点审视28 页空间计算行业深度发展趋势、关键技术、行业应用及相关公司深度梳理 - 25022433 页Gartner2025 网络安全中的 AI明确战略方向研究报告16 页北京大学2025 年 DeepSeek 系列报告 - 提示词工程和落地场景86 页北京大学2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用99 页CIC 工信安全2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告42 页中科闻歌2025 年人工智能技术发展与应用探索报告61 页AGI 智能时代2025 年 Grok - 3 大模型技术突破与未来展望报告28 页上下滑动查看更多

更多文章