大语言模型的智体技能:架构、获取、安全及未来发展方向

张开发
2026/4/11 23:42:21 15 分钟阅读

分享文章

大语言模型的智体技能:架构、获取、安全及未来发展方向
26年2月来自浙大的论文“Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward”。从整体式语言模型到模块化、技能型智体的转变标志着大语言模型LLM在实践中部署方式的重大变革。智体技能——由指令、代码和资源组成的可组合包智体可按需加载——不再将所有程序知识编码到模型权重中而是无需重训练即可实现动态能力扩展。这种转变体现在渐进式披露、可移植技能定义以及与模型上下文协议MCP集成的范式中。本文全面概述智体技能领域在过去几个月中的快速发展。从四个维度对该领域进行梳理i架构基础考察SKILL.md规范、渐进式上下文加载以及技能和MCP的互补作用ii技能习得涵盖基于技能库的强化学习SAGE、自主技能发现SEAgent和组合式技能合成iii大规模部署包括计算机-使用智体CUA栈、GUI基础架构的进展以及在OSWorld和SWE-bench上的基准测试成果 (iv) 安全性方面近期实证分析表明26.1% 的社区贡献技能存在漏洞这样本文提出技能信任与生命周期治理框架——一个基于四层、基于门控的权限模型该模型将技能来源映射到分级部署能力。其识别出七项开放性挑战——从跨平台技能可移植性到基于能力的权限模型——并提出一个研究议程旨在实现可信赖的、自我改进的技能生态系统。与以往广泛涵盖生命周期管理LLM智体或工具使用的综述不同这项工作专门关注新兴的技能抽象层及其对下一代智体系统的影响。大语言模型的功能已显著扩展但其作为自主智体的效用仍然受到一个根本性矛盾的制约通用模型拥有广泛的知识但缺乏现实世界任务所需的专业程序知识。微调可以部分解决这个问题但代价高昂且可组合性有限。检索增强生成RAG可以提供外部知识但检索的段落是被动的——它们无法指定多步骤工作流程、打包可执行代码或在运行时调整智体的工具权限。智体技能通过引入模块化的、基于文件系统的抽象来解决这一矛盾该抽象可以根据需要为智体提供特定领域的专业知识。在这种范式中技能不是模型或提示模板而是一个独立的包一个结构化的指令文件SKILL.md、可选脚本、参考文档和资源这些内容组织在一个目录中智体会在遇到相关任务时发现、加载并执行该目录[1]。与传统工具的区别在于架构工具执行操作并返回结果而技能则通过注入程序知识、修改执行上下文以及逐步披露信息使智体能够解决问题。Anthropic 于 2025 年 10 月正式提出这一概念在其 Claude 产品平台上推出智体技能 [2]随后于 2025 年 12 月将其作为开放标准发布 [3]。短短四个月内anthropics/skills 代码库在 GitHub 上获得超过 62,000 个星标来自 Atlassian、Figma、Canva、Stripe 和 Notion 等合作伙伴构建的技能被收录到精选目录中其他前沿模型提供商也独立采用结构相同的架构。这种快速融合反映一种更广泛的认知随着智体从研究原型走向生产部署行业需要标准化的机制来打包、分发和管理程序专业知识。模型上下文协议 (MCP) 的并行成熟——MCP 是一种用于连接智体与外部数据和工具的开放标准已于 2025 年 12 月捐赠给 Linux 基金会的智体人工智能基金会 [4]——提供互补的基础设施层。技能和 MCP 共同定义一个新兴的智体技术栈其中技能提供“做什么”而 MCP 提供“如何连接”。从提示工程到技能工程智体技能的演进可以理解为LLM能力扩展的三个范式演变过程。提示工程2022-2023表明精心设计的指令可以引发令人印象深刻的零样本和少样本行为但提示是短暂的、非模块化的并且难以版本控制或共享。工具使用和函数调用2023-2024使模型能够调用外部API但每个工具都是原子性的——一个具有明确输入和输出的单一函数。工具执行并返回结果它们不会改变智体对任务的理解。技能工程2025年至今引入更高层次的抽象。技能是一个包含指令、工作流指南、可执行脚本、参考文档和元数据的包所有这些都组织成在需要时动态加载。关键在于许多现实世界的任务需要的不是单个工具调用而是由特定领域的程序知识指导的一系列协调决策。例如PDF 处理技能并非仅仅提供一个“填写表单”的功能它还会教会智体如何处理 PDF 文件使用哪些库处理哪些特殊情况以及执行哪些代码 [1]。与先前工作的关系一些基础性工作预示技能范式的出现。Voyager [10] 为 Minecraft 中的具身智体引入一个技能库其中存储并组合了由大语言模型 (LLM) 生成的程序以解决日益复杂的任务。CREATOR [11] 和 LLMs as Tool Makers [12] 探索 LLM 可以创建自己工具的想法。Toolformer [13] 展示自学工具的使用。然而这些工作主要关注受限环境下的模型生成技能。相比之下智体技能范式强调由人类编写的、可移植的、受监管的技能包这些技能包旨在跨异构智能体平台进行生产部署。研究范围与方法在本研究中系统地检索arXiv、ACL Anthology、NeurIPS/ICML/ICLR会议论文集以及Anthropic的官方出版物检索词围绕“智体技能”、“技能库”、“LLM工具使用”、“计算机使用智体”和“模型上下文协议”展开。明确排除以往研究中对通用LLM智体架构和广泛工具使用分类的涵盖而是专注于技能抽象层及其直接生态系统。SKILL.md 规范技能的核心是一个目录其中包含一个带有 YAML 前置元数据的 SKILL.md 文件该文件指定技能的名称和描述。智体程序在启动时仅将这些元数据通常为几十个tokens预加载到系统提示符中从而实现大型技能库而不会造成上下文开销。SKILL.md 文件的完整内容包含程序指令这些指令仅在技能被触发时加载。其他资源脚本、参考文档、资产位于子目录中并按需加载 [1]。这种三级渐进式披露是其架构创新的关键所在。正如 Zhang [1]所述构建技能“就像为新员工编写入职指南” 。第一级充当目录第二级提供章节内容第三级提供技术附录。如图所示智体技能的渐进式披露架构信息分三个阶段加载以最大限度地减少上下文窗口的消耗同时保持对任意深度程序知识的访问。token估计值是每个技能的近似平均值改编自 Zhang、Lazuka 和 Murag [1]。技能执行生命周期当用户请求与技能描述匹配时智体程序会触发一个两阶段的执行过程。首先技能指令和任何所需资源会以隐藏元消息的形式注入到对话上下文中——模型可见但不会显示在用户界面上。其次智体的执行上下文会被修改预先批准的工具例如特定的 bash 命令、文件读/写权限会被激活智体会利用增强后的上下文完成任务。关键在于技能执行会修改智体的准备工作而不是直接修改其输出。这与函数调用不同函数调用是指工具产生结果。技能会在智体生成响应之前重塑其已知和可执行的内容。智体堆栈技能和模型上下文协议 (MCP)模型上下文协议 (MCP) 于 2024 年 11 月发布 [14]并于 2025 年 12 月捐赠给智体人工智能基金会 [4]它提供一个补充层。MCP 规范智体如何通过 JSON-RPC 2.0 协议连接到外部数据源和工具该协议包含三个原语工具模型调用的函数、资源应用程序控制的数据和提示用户调用的模板[15]。技能和 MCP 并非相互竞争的标准而是智体栈中正交的两层表 1所示。技能可以指示智体使用特定的 MCP 服务器指定如何解释其输出并在连接失败时定义回退策略。技能提供程序智能MCP 提供连接性。高级工具使用集成Anthropic 于 2025 年 11 月发布的“高级工具使用”功能 [16] 引入三种机制深化技能与工具的集成(1) 工具搜索工具支持从大型注册表中以编程方式发现相关工具最多可减少 85% 的token开销(2) 程序化工具调用模型通过代码而非结构化 JSON 执行工具在 Opus 4.5 上将准确率从 79.5% 提高到 88.1% (3) 工具学习使模型能够学习工具文档并提高调用质量。这些功能解决一个实际瓶颈随着技能库的增长智体需要高效的机制来发现并调用技能工作流程中合适的工具。技能范式的核心问题在于技能是如何创建、完善和组合的。识别出四种不同的获取模式总结于表 2所示。人工编写的技能最直接有效的获取模式是人工直接编写。Anthropic 的框架旨在使这种模式易于上手一个技能可以像一个包含几十行指令的 Markdown 文件一样简单 [1]。Claude Code 中的技能创建元技能可以根据自然语言描述搭建新技能的框架生成目录结构、SKILL.md 文件和捆绑脚本。Atlassian、Canva 和 Sentry 等公司的企业级部署已经生成编码专有工作流程的生产级技能。2025 年 12 月的合作伙伴目录发布 [2] 建立一个审核流程合作伙伴提交的技能在被收录之前会经过安全性和质量审核。这种模式类似于应用商店的管理模式但准入门槛要低得多因为技能本质上是结构化文档而不是可执行应用程序。基于技能库的强化学习SAGE技能增强型GRPO自进化[17] 代表通过强化学习技能的最严谨方法。其关键创新在于顺序部署智体并非在孤立的任务上进行训练而是部署在一系列相似的任务中先前任务中生成的技能会被保留并在后续任务中重用。技能集成奖励机制将基于结果的验证与奖励高质量、可重用技能创建的额外信号相结合。在AppWorld测试中SAGE实现72.0%的任务目标完成率和60.7%的场景目标完成率——相比没有技能库的基线GRPO绝对提升8.9%——同时减少26%的交互步骤和59%的生成token。这种效率提升对于生产环境部署尤为重要因为token消耗直接转化为成本。自主技能发现SEAgent [18] 旨在解决一个互补的挑战智体能否自主发现之前未见过的软件所需的技能该框架引入一个世界状态模型用于逐步评估技能发展轨迹以及一个课程生成器该生成器能够从不断更新的软件指南内存中生成日益复杂的任务。一种从专家到通才的训练策略将来自特定领域智体的洞察整合到一个统一的模型中。在 OSWorld 的五个全新软件环境中SEAgent 将成功率从 11.3% 提高到 34.5%比竞争对手 UI-TARS 基线提高 23.2 个百分点。结构化技能库CUA-Skill [19] 采用知识工程方法将人类计算机使用经验编码为参数化的执行图和组合图。每个技能都具有类型化的参数、前提条件和可组合性规则。 CUA-Skill Agent 支持动态技能检索、论证实例化和内存感知故障恢复。在 WindowsAgentArena 平台上该方法实现 57.5% 的领先成功率显著优于缺乏结构化技能表示的方法。组合式技能合成Agent Proposing [20] 证明技能可以在问题求解过程中动态组合。一个专门的智体从库中选择并组合模块化推理技能将问题合成建模为一个目标驱动的过程。使用这种方法的 300 亿参数求解器在 AIME 2025 数学竞赛基准测试中取得 91.6% 的成绩表明技能组合可以产生超越任何单个技能的能力。技能编译从多智体到单智体Li [21] 的一项重要发现是多智体系统通常可以“编译”成单智体技能库从而在保持准确性的同时大幅减少token使用量和延迟。然而这种压缩存在一个相变当技能库规模超过临界值时技能选择的准确性会急剧下降。这一发现对技能库管理具有实际意义单个智体能够有效管理的技能数量存在根本性的限制。计算机-使用智体CUA已成为技能范式的主要部署领域因为通过图形用户界面GUI操作计算机本质上需要组合感知、推理和动作序列而这些序列自然地映射到技能抽象概念。如图所示技能型计算机-使用智体CUA的架构图其展示技能库、感知-定位-动作流程、MCP连接层以及操作系统环境之间的交互。路由器选择当前使用的技能高亮显示并将其注入到智体的上下文中。GUI 智体架构CUA 架构的最新进展非常迅速。2025 年 1 月推出的 UI-TARS [22] 通过增强感知、统一动作建模和系统 2 推理在十个 GUI 基准测试中建立新的基准。其后续版本 UI-TARS-2 [23] 引入用于可扩展轨迹生成的数据飞轮并稳定了多轮强化学习训练在 OSWorld 和 AndroidWorld 测试中分别达到 47.5% 和 73.3% 的准确率。Agent S2 [24] 提出一种组合式通用-专业框架并采用混合定位机制实现精确的 GUI 定位在 OSWorld 数据集上其性能分别比 Claude Computer Use 和 UI-TARS 提高 18.9% 和 32.7%。OpenCUA [25] 提供最全面的开源框架其 AgentNet 是首个涵盖三个操作系统和 200 多个应用程序的大规模 CUA 数据集。OpenCUA-72B 在 OSWorld-Verified 数据集上取得 45.0% 的准确率是目前开源领域取得的最佳成绩。它在 NeurIPS 2025 上作为 Spotlight 论文发表标志着该领域的成熟。GUI 定位技术进展准确的 GUI 定位——即识别要交互的正确屏幕元素——仍然是 CUA 的一项关键技能。UGround [26] 是 ICLR 2025 口头报告的成果它基于 130 万张屏幕截图中的 1000 万个 GUI 元素进行训练建立最大的 GUI 视觉定位数据集其性能绝对值比现有模型高出 20%。Jedi 框架 [27] 通过 UI 分解和合成将定位数据扩展到400 万个示例将 OSWorld 智体的成功率从 5% 提高到 27%。Yuan [28] 的一项引人注目的成果表明基于强化学习的自进化训练使一个 70 亿参数的模型在 ScreenSpot-Pro 测试中达到 47.3% 的成功率仅使用 3000 个训练样本就比 720 亿参数的 UI-TARS 模型高出 24.2 个百分点。类似地GUI-Actor [29] 通过基于注意机制的动作头引入无坐标视觉定位其 7B 模型在 ScreenSpot-Pro 测试中超越 UI-TARS-72B。基准测试现状表 3 展示当前 CUA 基准测试的现状。该领域取得显著进展在 OSWorld 测试中成功率从 2024 年初的个位数攀升至 2025 年 12 月的超人类水平72.6% 对比 72.36% 的人类基线。然而更具挑战性的场景——专业应用ScreenSpot-Pro、长周期任务OS-Marathon [30]以及混合 GUI-代码工作流程CoAct-1 [31]——仍然暴露出显著的差距。智体技能的快速普及引入一个显著且全新的攻击面。与传统软件包不同技能将自然语言指令与可执行代码相结合其格式被智体默认信任。三项同期发表的研究均在2025年10月至2026年2月期间首次对这一威胁形势进行了实证描述。通过技能注入提示信息Schmotz[32]证明智体技能能够实现“极其简单”的提示信息注入。攻击者通过在冗长的SKILL.md文件及其引用的脚本中嵌入恶意指令可以窃取敏感数据例如内部文件或密码。关键在于作者证明一种流行的编码智体的系统级防护机制可以被绕过一个看似无害的、针对特定任务的批准带有“不再询问”选项会被应用到密切相关但有害的操作中。该攻击利用技能的基本信任模型——一旦加载技能的指令就会被视为权威上下文。大规模漏洞Liu [33] 进行首次大规模实证安全分析从两个主要市场收集 42,447 个技能并使用 SkillScan一个结合静态分析和基于 LLM 的语义分类的多阶段检测框架分析其中的 31,132 个技能。研究结果令人警醒26.1% 的技能至少包含一个漏洞涵盖四个类别共 14 种不同的模式提示注入、数据泄露 (13.3%)、权限提升 (11.8%) 和供应链风险。与仅包含指令的技能相比捆绑可执行脚本的技能包含漏洞的可能性高出 2.12 倍OR2.12p 0.001。5.2% 的技能表现出高严重性模式强烈暗示恶意意图。已确认的恶意技能后续研究[34]通过对来自两个社区注册表的98,380个技能进行行为验证构建首个已确认恶意技能的真实数据集。在157个已确认的恶意技能及其632个漏洞中作者识别出两种攻击原型数据窃贼通过供应链技术窃取凭证以及智体劫持者通过操纵指令来破坏智体的决策。一个工业化攻击者通过模板化的品牌冒充占已确认案例的54.1%。构建治理框架以上发现——从通过可信技能文件快速注入[32]到42,447个社区技能中26.1%的漏洞率[33]再到已确认的大规模恶意攻击者[34]——共同表明当前的隐式信任模型是不可持续的。然而以往的研究并未提出一种能够兼顾技能来源多样性、SKILL.md格式特有的渐进式披露攻击面以及运行时信任演进需求的集成治理架构。本文提出一种技能信任与生命周期治理框架如图所示该框架综合本次调研的各项见解构建一个原则性的治理模型。该框架包含三个组成部分1验证门。四个顺序门G1-G4提供纵深防御。G1应用静态分析模式匹配和依赖性扫描来标记已知的漏洞特征。G2使用基于LLM的语义分类来检测技能声明用途与其实际指令之间的意图不匹配从而解决Schmotz [32]提出的间接提示注入向量。G3在行为沙箱中执行技能以检测静态分析无法发现的副作用其动机源于一项研究发现已确认的恶意技能平均包含4.03个漏洞涵盖3个攻击链阶段[34]。 G4 验证拟议的权限清单一份所需功能工具、文件路径、网络访问的正式声明并将其与 G3 观察的行为进行比较。(2) 信任层级。该框架根据技能通过的验证关卡及其来源将其分配到四个层级之一T1-T4。关键在于这种映射并非二元安全/不安全而是遵循最小权限原则的渐进式映射。未经审查的社区技能T1仅获得指令访问权限并具有完全的工具隔离。经厂商认证的技能T4获得全部功能。这直接解决捆绑可执行脚本会使漏洞风险增加 2.12 倍的发现 [33]T1 和 T2 技能永远不会被授予脚本执行权限。(3) 生命周期信任演进。已部署的技能会受到持续的运行时监控。异常行为意外的工具调用、权限边界探测会触发降级或撤销。相反运行时历史记录良好的技能可以提升。这构建一种类似于软件包管理生态系统中信誉系统的激励机制。该框架特意考虑架构它直接对应于三个渐进式披露级别。1 级元数据是唯一在 T1 层级暴露的组件2 级指令可在 T2 层级及以上访问3 级可执行脚本需要 T3 或 T4 层级的信任。这种对应关系确保治理决策基于实际攻击面而不是一刀切地应用。本文确定构成智体技能研究前沿的七项开放性挑战挑战 1跨平台可移植性。虽然智体技能已作为开放标准发布但真正的跨平台可移植性仍是理想状态。为 Claude 编写的技能可能隐式地依赖于 Claude 特有的功能代码执行环境、工具签名、模型行为。实现真正的可移植性需要 (a) 通用的技能运行时或 (b) 针对不同智体平台的技能编译。挑战 2大规模技能选择。Li [21] 指出随着库规模的增长技能选择的准确性会发生阶段性转变。当企业技能库扩展到数百或数千个技能时路由问题即确定针对给定查询激活哪些技能在组合逻辑上变得极具挑战性。高级工具使用功能 [16] 通过工具搜索部分解决了这个问题但根本的扩展性问题依然存在。挑战 3技能组合与编排。现实世界的任务通常需要组合多个技能。 CUA-Skill 的组合图 [19] 和 Agentic Proposing 的动态组合 [20] 提供初步的解决方案但用于多技能编排的原则性框架包括冲突解决、资源共享和故障恢复仍不完善。挑战 4基于能力的权限模型。当前的技能执行基于隐式信任技能一旦加载即可指示智体使用任何可用工具。安全结果表明这种信任模型容易被利用。基于能力的权限系统其中每个技能声明所需的权限并由智体或用户显式授予将显著缩小攻击面。挑战 5技能验证和测试。与具有单元测试和 CI/CD 流水线的软件包不同技能目前缺乏标准化的测试框架。Anthropic 的评估指南 [35] 提供原则但没有提供特定于技能的工具。自动技能验证确认技能执行其声明的功能不做任何额外的操作是一个开放的技术难题它与人工智能安全和形式化方法密切相关。挑战 6持续学习技能而不导致灾难性遗忘。Shenfeld [36] 研究预训练的LLM能否在不降低现有能力的情况下习得新技能发现自蒸馏提供一条很有前景的途径。然而动态加载的技能与模型基础能力之间的交互作用——技能是否会无意中“覆盖”有用的默认行为——仍然知之甚少。挑战 7评估方法。目前的基准测试主要评估智体完成任务的情况很少直接评估技能质量。需要技能可重用性技能是否能跨任务泛化、可组合性技能能否与其他技能组合和可维护性技能对环境变化的鲁棒性如何等指标来评估技能生态系统而不是单个智体的运行情况。

更多文章