SkillsVote:从技能目录走向终极技能网关(Ultimate Skill Gateway)

张开发
2026/4/10 16:52:32 15 分钟阅读

分享文章

SkillsVote:从技能目录走向终极技能网关(Ultimate Skill Gateway)
成千上万个 skills 摆在面前你的 Agent 为什么还是不会干活2025 年底 Anthropic 把 Agent Skills 规范作为开放标准发布OpenAI 在 Codex CLI 里跟进了同一套格式Cursor、Gemini CLI 也陆续接入。有人说 2026 是Agent 找到工作并开始写周报的一年——工具连接标准化了流程知识模块化了分发机制也产品化了。GitHub 上的 SKILL.md 文件数量爆炸式增长SkillsMP 号称 70 万LobeHub、SkillHub、Manus 等各种技能市场纷纷上线。看起来Agent 从此再也不缺装备了。但事情没那么美好。你大概经历过这种场景让 Agent 去处理一份 PDF 表单然后从技能库里信心满满地挑了一个 skills执行到一半直接 crash——因为那个 skills 依赖一个只能本地安装的命令行工具而你的 Agent 跑在云端沙箱里。这不是你的运气差。今年 2 月发表的 SkillsBench 论文跑了 7,308 条 Agent 执行轨迹发现精心策划的 skills 平均能提升 16.2% 通过率——但 84 个任务里有 16 个反而因为 skills 变差了。让 Agent 自己生成 skills平均效果为负。skills 数量从来不是瓶颈。怎么找到对的 skills、怎么确认它能跑、跑完之后怎么知道它到底行不行——这才是。SkillsVote 就是来解决这个问题的。SkillsVote 到底是什么SkillsVote 是面向客户端 Agent 的终极技能网关Ultimate Skills Gateway。不仅是技能目录——那是主要给人浏览的。不只是技能市场——那是主要给人安装的。SkillsVote 是给正在干活的人、Agent、AI 应用......的。我们希望通过它解决的问题是在执行任务的时候怎么自动找到对的 skills并确认这个 skills 在当前环境能跑得好打个不太严谨的比方现有的技能市场是 App Store——你自己逛、自己挑、自己装。SkillsVote 更像是操作系统里的包管理器 依赖解析 运行时监控——你甚至是你的 Agent 只需要说我要处理 PDF剩下的事情交给 SKillsVote截至目前SkillsVote 收录了 168 万 Agent Skills其中通过 Anthropic 官方脚本格式校验的有 79 万全部来自 GitHub 开源生态——这是目前全球规模最大的 Agent 技能库。为什么 Agent 需要技能网关而不是更多技能今天的 Agent Skills 生态有点像 npm 早期——包的数量在疯涨但质量参差不齐依赖关系一团糟你装了一个包发现它依赖另外三个你环境里根本没有的东西。对于一个正在执行任务的客户端 Agent真正的卡点是四件事发现——几十万个 skills 里哪个和当前任务最匹配不是大概相关是真的能用。适配——找到了但它在我的运行环境里能跑吗要什么权限要联网吗依赖什么包归因——跑完了成功了还是失败了如果失败了是 skills 写得烂还是我选错了还是环境不兼容迭代——这么多任务跑下来系统能不能从中学到点什么别让同样的坑踩第二次这四个环节只要断一个skills 就只是一堆 markdown 文件躺在 GitHub 上。SkillsVote 是怎么做的两个接口一条闭环SkillsVote 的架构其实不复杂核心就两个接口。1. recommendAgent 问我该用什么 skills客户端 Agent 接到用户 query 后将其改写为面向技能检索的请求调用这个接口。系统结合 Agent 改写后的 query 和客户端上下文从 160 万 skills 库里返回最相关的一组 skills附上推荐理由和使用指南包含对所推荐技能的编排建议。Agent 不用再自己猜了。它在关键节点拿到的是一个经过筛选的候选列表加上为什么推荐这个的解释和怎么组合使用的执行编排。2. feedbackAgent 说这次用得怎么样任务结束后Agent 把执行摘要回传子任务目标、实际调用了哪些 skills、成功还是失败、证据是什么、运行环境是什么样的。这些反馈直接回流到技能系统里持续优化推荐策略。所以 SkillsVote 不是一个搜索引擎。它是一条完整的闭环推荐 → 执行 → 反馈 → 进化 → 更好的推荐用得越多推得越准。一行命令接入现在就能用SkillsVote 的能力本身就被封装成了一个标准的 Agent Skill支持 Codex、Claude Code、OpenClaw 等主流客户端。接入只需要一行代码npx skills add MemTensor/skills-vote --skill skills-vote装好之后整个 recommend → 执行 → feedback 的流程对用户完全透明——你只需要正常给 Agent 下任务它会在合适的时机自动调用 SkillsVote 的服务。产品网站https://skills.vote开源仓库https://github.com/MemTensor/skills-vote用一个真实任务看 SkillsVote 怎么工作我们使用了一个真实任务跑一遍——收集 MemTensor 和 Memos 的公开信息做一个 PPTX 演示文稿再生成 HTML 版本并本地部署并进行了对比测试。SkillsVote Gatewayfind-skills 搜索安装完全不用 skill耗时26m 29s45m 14s29m 33sskills 选择系统推荐附推理过程和执行指南Agent 自己搜索判断无执行引导有步骤拆解 skills 间数据流转说明无无反馈回流有自动回传执行摘要无无系统进化研发中每次执行都让推荐更准不进化不进化SkillsVote 的价值不只是快了一点而是整个工作流被结构化了从推荐什么 skills到怎么组合使用到执行完反馈回来每一步都有迹可循而且每一次执行都在让系统变得更聪明。实际流程和效果任务是这样的收集 MemTensor 和 Memos 的公开信息整理成结构化内容做一个精美的 PowerPoint 演示文稿再生成一个 HTML 版本并本地部署到 9001 端口。第一步Agent 向 SkillsVote 请求推荐Agent 拿到任务后开始调用skills-vote的 recommend 接口。[Codex 终端中Agent 调用 recommend 脚本返回推荐结果deep-research、pptx-generator、html-presentation 三个 skills]在 SkillsVote 的网页 Playground 里你可以看到推荐背后的完整推理过程系统读了哪些 SKILL.md、做了哪些 GREP、遍历了 Skills Directory Tree 中的哪些分支每一步都有 trace。[SkillsVote Playground 网页端展示 AGENT RECOMMEND 的 Reasoning Trajectory 和 Skill Directory Tree]更关键的是系统不只是告诉 Agent 用这三个 skills还生成了一份 RECOMMENDED GUIDE——把任务拆解成具体步骤每一步对应哪个 skills、怎么衔接、中间产物怎么传递都写得清清楚楚Step 1用deep-research做多源信息搜集产出findings.mdStep 2把findings.md喂给pptx-generator生成 PPTXStep 3用html-presentation生成单文件 HTML 演示部署到本地端口。[RECOMMENDED GUIDE 详情展示三步执行计划和 skills 间的数据流转关系]第二步Agent 按推荐执行拿到推荐后Agent 按顺序开始干活——搜索 MemTensor 官网、抓 GitHub metadata、访问 MemOS 文档、汇总信息、生成 PPTX、构建 HTML 演示、启动本地服务。[Agent 执行过程搜索 web、获取 GitHub 信息、逐步推进]整个任务在 26 分 29 秒 内完成。第三步Agent 回传反馈任务结束后Agent 自动调用 feedback 接口把这次执行的完整摘要回传给 SkillsVote[Codex 终端中Agent 调用 feedback 脚本回传 JSON 格式的执行摘要包含 session_id、os、write_scope、privilege、子任务列表等]在 SkillsVote 的 Playground 里这些反馈都被结构化展示[SkillsVote Playground 网页端SUBTASKS #3 展示 3 个子任务全部 PASS100% 成功率每个子任务标注了使用的 skills 和详细执行摘要]这就是 SkillsVote 的完整闭环推荐 → 执行 → 反馈 → 进化一圈跑下来系统对什么任务该推什么 skills的判断又精准了一点。对比 find-skills 搜索安装后执行的效果find-skills是另一种常见的 skills 使用方式——Agent 自己去搜索、下载、安装 skills然后使用。[Agent 使用 find-skills 搜索并安装 anthropics/skillspptx 和 anthropics/skillsfrontend-design耗时 45m 14s]同样的任务总耗时 45 分 14 秒可以看到有几个明显的区别Agent 得自己判断该用什么 skill。选的 skill 和 SkillsVote 推荐的不同用了frontend-design而不是专门的html-presentation质量取决于 Agent 自己的判断力。没有执行引导。SkillsVote 会给出步骤拆解和 skill 间的数据流转说明find-skills 没有。SkillsVote 做了哪些别人没做的事168 万个 skill 收进来只是开始。真正花功夫的是后面的事——我们叫它构建 skill 画像。SkillsVote 用 GPT-5.4 强模型对每个 skill 做了系统化的 LLM-driven 预处理覆盖环境依赖解析、可验证性评估三个层面。这件事的成本不低——预处理阶段的模型调用费用超过了 20 万美元。但这是值得的因为没有这些画像推荐就只是关键词匹配和搜索引擎没区别。环境解析这个 skill 在你的 Agent 里到底能不能跑SkillsVote 会对每个 skill 做统一的运行环境建模支持什么 OS、写入边界是什么、需不需要 sudo、需不需要联网和密钥、依赖哪些可执行命令。质量评估这个 skill 写得到底行不我们从三个角度进行判断内容一致性描述和内容在讲同一件事吗引用完整性引用的脚本和资源真的存在吗任务导向性是在给 Agent 可执行指引还是只在描述知识。杀手锏从 skills 里反向出题通过可验证性评估之后SkillsVote 为这些 skill 反向构造任务。任务包包括任务说明Dockerfile单元测试验证任务成功的脚本然后用不同 Agent × 不同模型的组合来跑这些任务——比如 Codex GPT-5.4、Claude Code Claude Opus 等——验证 skill 在不同环境下是否真的能带来增益。这类任务有一个很鲜明的特点没有对应的 skillAgent 很难稳定做对。有了正确的 skill成功率显著提升。SkillsBench 的数据也印证了这一点——Haiku 4.5 带上 skill 之后的表现27.7%超过了 Opus 4.5 裸跑22.0%。正确的 skill 比更大的模型更管用。验证器查的是最终文件、测试结果、编译输出、数据库状态、接口响应这些硬证据。一个 skill 对 Agent 到底有多大增益测出来比出来回归出来。和现有产品比SkillsVote 在解一个不同的问题现在做 Agent Skills 相关的产品不少各有各的打法SkillNet30 万走研究路线提供 create / evaluate / connect 全生命周期工具链。重点在 skills 的创建和组织。ClawHub4 万是 OpenClaw 生态的原生注册表强项在发布、版本管理和分发。SkillsMP70 万面向终端用户核心是搜索、筛选和浏览。Skills.sh9 万也面向终端用户做目录、审计、排行榜和安装。这些产品解决的都是 人怎么找到 skills 的问题做得也都不错。但 SkillsVote 问的是另一个问题Agent 怎么在执行任务的时候自动找到、持续优化 skills具体差异在五个地方环境建模——SkillsVote 做统一的面向 Agent 运行时的环境分析。其他产品要么靠 skills 自己声明要么没这一层。质量治理——看的是一致性 / 完整性 / 任务导向性——Agent 能不能把这个 skills 用起来。不只是安全扫描。任务构造与可运行验证——从 skills 反向生成可验证的 benchmark 任务。这个别人没做。在线推荐——不局限于传统的关键词匹配与向量检索。反馈闭环——从 Agent 真实执行轨迹中持续学习不是一锤子买卖。SkillsVote 是目前唯一同时具备在线推荐、执行引导、反馈闭环三项能力的 Agent Skills 产品。最后说两句SkillsBench 的数据已经说得很明白了正确的 skills 可以让小模型干过大模型。这意味着在 Agent 这个赛道上模型能力当然重要但 skills 这一层的基础设施可能同样关键。而这层基础设施今天还很原始——大量 skills 散落在各处质量不可控环境不透明用了也不知道好不好使好不好使也没人记录。SkillsVote 想把这些散落的、异构的、难复用的技能资产升级成面向 Agent 的在线能力基础设施。让 Agent 不只是拥有模型更拥有一套可发现、可调用、可验证、可反馈、可进化的技能系统这就是 SkillsVote 想做的事。官网https://skills.vote/GitHubhttps://github.com/MemTensor/skills-vote

更多文章