产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

张开发
2026/4/21 18:44:02 15 分钟阅读

分享文章

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents
2022 年底GPT-4 刚发布Notion 就开始尝试做智能体Agent了。他们第一次的想法很直接给 AI 访问 Notion 所有工具的能力让它在后台为你工作。那次失败了。第二次失败了。第三次第四次一直到 2025 年 9 月才正式发布 Custom Agents。中间经历了 4-5 次彻底重建。Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客第一次完整讲出了这段历史。主持人 swyx 说他为这次访谈等了将近 3 年。受OpenClaw等主动式Agent的启发Notion AI 如何重新定义一人公司的效率为什么每次都失败这意味着什么工具领先了模型能力而模型能力才是真正的解锁点。五次重建失败原因各不相同第 1 次2022 末函数调用function calling概念还没有团队自己设计工具调用框架模型太弱根本跑不起来第 2 次2023 初尝试微调模型但上下文窗口只有 4K-8K无法支撑多轮交互第 3 次2023-24建了自定义 XML 格式的智能体框架agent harness暴露给模型的复杂度太高第 4 次2024 中迁移到类 Markdown/SQL 抽象层工具定义频繁变化不稳定第 5 次2025 初Claude 3.6/3.7 时代模型能力终于支撑了可靠的产品体验——这次成了Simon 在播客里用了一句话撞了三年撞到模型本身终于就位。Agent Lab Thesis产品公司该怎么赌时机这不是说动手越早越好也不是说等到成熟再做。Simon 提出了他称之为Agent Lab Thesis的产品策略这是一个时机判断问题。Notion 在 2022 年就开始做是为了积累对用户协作模式的理解——这些理解在模型就位后才能快速转化为产品。但他们也足够理性在模型能力不够的时候发布会伤害产品信任。他们维护了三类并行项目已发布项目保持高质量运营实验性项目探索 18 个月后显而易见的方向疯狂的项目即使方向不明也持续投入这是一种组合拳。不是 all-in 一条线而是三条线同时跑不同时间窗口收获不同回报。Token TownNotion 的 AI 团队结构Notion 内部负责 AI 的团队叫Token Town有两类核心角色AI Engineers构建智能体能力Model Behavior EngineersMBE模型行为工程师专门理解模型行为、编写评估体系eval、分析失败模式——这个角色是 Notion 特有的融合了数据科学家、产品经理和提示工程师三种技能。MBE 的存在说明了一件事AI 产品的质量护栏不会自动建立。你需要有人专门做这件事。Notion 团队做的一个案例可以说明 MBE 的价值他们雇了第三方来检测模型供应商的秘密量化降质——在跨供应商的评估eval中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事这种偏差会默默积累直到用户开始抱怨。三层评估体系Notion 的评估eval体系分三层每层目标完全不同回归测试进入持续集成CI防止功能退化通过率要求接近 100%发布质量评估产品发布标准各维度达标率 80-90%前沿评估故意设定在 30% 通过率——目的是追踪模型能力边界为合作伙伴提供有价值的反馈第三层 30% 的设计是反常识的。Simon 解释评估不是越高越好。评估是为了发现有用的信息不是为了刷高分。一个故意难以通过的测试比一个所有人都能过的测试信息量要高得多。Notion 还在把评估系统本身智能体化评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码到构建能写评估的智能体和大模型裁判LLM judge。MCP vs CLINotion 的集成哲学Simon 对两种集成方式有清晰的判断MCPModel Context Protocol模型上下文协议适合窄、轻量级的智能体。权限模型强社区生态好Simon 原话MCP is just the dumb simple thing that works.CLI命令行接口Simon 仍然非常看好特别是需要完整计算运行时的场景深度集成如 Notion Mail选择与工程团队直接合作自建 API为了极低延迟和专属的产品质量控制没有万能方案。关键是清楚自己的场景是什么再选工具。为什么 AI 编程工具都在复古做 CLI这是下一个十年最稀缺的东西#CLI新交互范式误判校正一个常见的认知偏差做 AI 产品就是赶早不赶晚。Notion 的五次重建提供了一个反例在模型能力不足时强行发布不是领先是消耗产品信任。更重要的判断是你的实验是否在真正积累理解还是只是在等待模型成熟如果是前者坚持跑。如果是后者先停下来搞清楚用户真正需要什么。对独立开发者和小团队的启发Notion 的故事里有几件事在任何规模上都成立时机判断优先于速度在模型能力不足时强行发布会伤害产品信任。宁可等不要拿不够好的版本教育用户。评估体系是质量护栏哪怕是个人项目也值得设计一个最简单的评估——知道你的智能体在哪里出错是改进的前提。删掉自己代码的文化Notion 能多次重建离不开团队低自我low-ego的文化。对自己的框架执念越深越容易错过时机。如果你也在做 AI 产品、智能体工作流或者想搞清楚怎么评估一个 AI 系统的质量来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人正在持续共建下一代工作方式。为什么必须构建自己的 AgentOS #系统性知识AgentOS录播2026版#原创参考[1] Notions Token Town: 5 Rebuilds, 100 Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139[2] Introducing Custom Agents — Notion 官方博客[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明[4] swyx Twitter thread — 2026-04-15

更多文章