产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

张开发

• 2026/4/21 18:44:02 • 15 分钟阅读

分享文章

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

2022 年底GPT-4 刚发布Notion 就开始尝试做智能体Agent了。他们第一次的想法很直接给 AI 访问 Notion 所有工具的能力让它在后台为你工作。那次失败了。第二次失败了。第三次第四次一直到 2025 年 9 月才正式发布 Custom Agents。中间经历了 4-5 次彻底重建。Notion 联派创始人兼 AI 负责人 Simon Last 在 Latent Space 播客第一次完整讲出了这段历史。主持人 swyx 说他为这次访谈等了将近 3 年。受OpenClaw等主动式Agent的启发Notion AI 如何重新定义一人公司的效率为什么每次都失败这意味着什么工具领先了模型能力而模型能力才是真正的解锁点。五次重建失败原因各不相同第 1 次2022 末函数调用function calling概念还没有团队自己设计工具调用框架模型太弱根本跑不起来第 2 次2023 初尝试微调模型但上下文窗口只有 4K-8K无法支撑多轮交互第 3 次2023-24建了自定义 XML 格式的智能体框架agent harness暴露给模型的复杂度太高第 4 次2024 中迁移到类 Markdown/SQL 抽象层工具定义频繁变化不稳定第 5 次2025 初Claude 3.6/3.7 时代模型能力终于支撑了可靠的产品体验——这次成了Simon 在播客里用了一句话撞了三年撞到模型本身终于就位。Agent Lab Thesis产品公司该怎么赌时机这不是说动手越早越好也不是说等到成熟再做。Simon 提出了他称之为Agent Lab Thesis的产品策略这是一个时机判断问题。Notion 在 2022 年就开始做是为了积累对用户协作模式的理解——这些理解在模型就位后才能快速转化为产品。但他们也足够理性在模型能力不够的时候发布会伤害产品信任。他们维护了三类并行项目已发布项目保持高质量运营实验性项目探索 18 个月后显而易见的方向疯狂的项目即使方向不明也持续投入这是一种组合拳。不是 all-in 一条线而是三条线同时跑不同时间窗口收获不同回报。Token TownNotion 的 AI 团队结构Notion 内部负责 AI 的团队叫Token Town有两类核心角色AI Engineers构建智能体能力Model Behavior EngineersMBE模型行为工程师专门理解模型行为、编写评估体系eval、分析失败模式——这个角色是 Notion 特有的融合了数据科学家、产品经理和提示工程师三种技能。MBE 的存在说明了一件事AI 产品的质量护栏不会自动建立。你需要有人专门做这件事。Notion 团队做的一个案例可以说明 MBE 的价值他们雇了第三方来检测模型供应商的秘密量化降质——在跨供应商的评估eval中发现某家正在悄悄降低模型质量。如果没有专门的人负责这件事这种偏差会默默积累直到用户开始抱怨。三层评估体系Notion 的评估eval体系分三层每层目标完全不同回归测试进入持续集成CI防止功能退化通过率要求接近 100%发布质量评估产品发布标准各维度达标率 80-90%前沿评估故意设定在 30% 通过率——目的是追踪模型能力边界为合作伙伴提供有价值的反馈第三层 30% 的设计是反常识的。Simon 解释评估不是越高越好。评估是为了发现有用的信息不是为了刷高分。一个故意难以通过的测试比一个所有人都能过的测试信息量要高得多。Notion 还在把评估系统本身智能体化评估智能体可以端到端地下载数据集、运行评估、迭代失败、自动调试、实现修复。软件工程师的角色因此也在变——从手动检查代码到构建能写评估的智能体和大模型裁判LLM judge。MCP vs CLINotion 的集成哲学Simon 对两种集成方式有清晰的判断MCPModel Context Protocol模型上下文协议适合窄、轻量级的智能体。权限模型强社区生态好Simon 原话MCP is just the dumb simple thing that works.CLI命令行接口Simon 仍然非常看好特别是需要完整计算运行时的场景深度集成如 Notion Mail选择与工程团队直接合作自建 API为了极低延迟和专属的产品质量控制没有万能方案。关键是清楚自己的场景是什么再选工具。为什么 AI 编程工具都在复古做 CLI这是下一个十年最稀缺的东西#CLI新交互范式误判校正一个常见的认知偏差做 AI 产品就是赶早不赶晚。Notion 的五次重建提供了一个反例在模型能力不足时强行发布不是领先是消耗产品信任。更重要的判断是你的实验是否在真正积累理解还是只是在等待模型成熟如果是前者坚持跑。如果是后者先停下来搞清楚用户真正需要什么。对独立开发者和小团队的启发Notion 的故事里有几件事在任何规模上都成立时机判断优先于速度在模型能力不足时强行发布会伤害产品信任。宁可等不要拿不够好的版本教育用户。评估体系是质量护栏哪怕是个人项目也值得设计一个最简单的评估——知道你的智能体在哪里出错是改进的前提。删掉自己代码的文化Notion 能多次重建离不开团队低自我low-ego的文化。对自己的框架执念越深越容易错过时机。如果你也在做 AI 产品、智能体工作流或者想搞清楚怎么评估一个 AI 系统的质量来 MixLab 无界社区和我们同行。这里聚集着最先触达未来的那一小部份人正在持续共建下一代工作方式。为什么必须构建自己的 AgentOS #系统性知识AgentOS录播2026版#原创参考[1] Notions Token Town: 5 Rebuilds, 100 Tools, MCP vs CLIs and the Software Factory Future — Latent Space 播客 #139[2] Introducing Custom Agents — Notion 官方博客[3] September 18, 2025 – Notion 3.0: Agents — Notion 官方发布说明[4] swyx Twitter thread — 2026-04-15

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

最新文章

1.CONCAT / CONCAT_WS 函数深度解析

3步实现微信平板模式：免Root安卓多设备登录终极方案

Jetson Nano + DeepStream 5.1 实战：让你的YOLOv5模型跑出实时FPS（含自定义模型配置）

别再死记硬背了！用这5个真实案例，彻底搞懂Yocto BitBake的变量赋值语法（.bb文件）

3分钟上手！用face-api.js在浏览器中实现人脸识别，小白也能玩转AI

西安交通大学LaTeX论文模板：3步解决格式难题的完整方案

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

开箱即用：CSDN星图镜像一键部署Yi-Coder-1.5B代码助手

告别白模！用Unity ProBuilder 2021版为你的场景原型快速上色与设置材质（含顶点颜色技巧）

一个磷酸铁锂体系电池comsol模型电化学热耦合模型可做容量衰减，极化，老化，电势降等等 ...

Mac学Linux新姿势：VMware Fusion装Ubuntu后，用VS Code远程开发真香了

WinUSB设备开发避坑指南：从Bus Hound抓包到驱动安装失败的排查

别再当老实人了！用博弈论拆解程序员薪资谈判，教你多拿几个Offer

保姆级教程：手把手调试vLLM的模型加载流程（附Worker进程启动全流程）

Matlab新手避坑指南：find函数返回索引的3种格式（线性、行列、值）到底怎么用？

改进IEEE 33节点系统下的潮流计算与电压分析——融入风机光伏与电动机，聚焦风光380系统研究

从共享单车到自动驾驶：聊聊GPS定位技术背后的“差”的艺术（单差、双差、三差）

GROMACS轨迹处理到PyMOL氢键分析：一条龙搞定蛋白-配体相互作用可视化

别再死记硬背公式了！用Unity和ShaderGraph直观理解TAA中的重投影（Reprojection）

产品公司的AI时机判断#Notion 重建了 5 次,才做出可用的Custom Agents

最新文章

1.CONCAT / CONCAT_WS 函数深度解析

3步实现微信平板模式：免Root安卓多设备登录终极方案

Jetson Nano + DeepStream 5.1 实战：让你的YOLOv5模型跑出实时FPS（含自定义模型配置）

别再死记硬背了！用这5个真实案例，彻底搞懂Yocto BitBake的变量赋值语法（.bb文件）

3分钟上手！用face-api.js在浏览器中实现人脸识别，小白也能玩转AI

西安交通大学LaTeX论文模板：3步解决格式难题的完整方案

推荐文章

C++20中views的学习与实战练习

从Buck到LLC：一份用Pspice玩转SiC MOSFET四大经典拓扑的仿真实验手册

从零到一：MATLAB tf函数实战指南与进阶技巧

Elasticsearch 运维必备：列出集群所有索引的5种方法（最全+图解+实战）

如何在苹果设备上运行Windows和Linux：UTM虚拟机完整指南

订单分库分表怎么设计？一次讲清拆分维度、全局 ID、分页查询与跨库问题

相关文章

3步告别Windows臃肿：Win11Debloat让你的电脑重获新生

从STM32到AI：嵌入式开发者如何理解Qwen-Image-Edit-F2P的模型推理流程

LVDS信号测试进阶：用泰克MDO3034的隐藏功能做信号完整性分析

KeychainSwift 未来展望：路线图与社区发展计划

DotNetPy：现代.NET 与 Python 互操作 实战指南

Rocky Linux 9 安装MySQL 8.0避坑指南：从安装到安全加固

分享文章

更多文章

DotNetPy：现代.NET 与 Python 互操作实战指南