精简架构,丰厚技能

张开发
2026/4/18 2:12:11 15 分钟阅读

分享文章

精简架构,丰厚技能
Steve Yegge说使用AI编码代理的人比今天使用Cursor和聊天的工程师生产力高出10倍到100倍大概比2005年的Google人高出1000倍。这是一个真实的数字。我见过。我亲身体验过。但当人们听到时他们会去找错误的解释。更好的模型。更聪明的Claude。更多参数。2倍的人和100倍的人使用的是相同的模型。差异不是智力。是架构——它可以写在一张索引卡上。1、Harness就是产品2025年3月31日Anthropic意外向npm仓库发布了整个Claude Code的源代码。51.2万行。我读过了。它证实了我在YC教学的一切秘密不是模型。是包裹模型的东西。实时仓库上下文。提示缓存。专门构建的工具。上下文膨胀最小化。结构化会话内存。并行子代理。这些都不能让模型更聪明。所有这些都是为了让模型在正确的时间获得正确的上下文而不会被噪音淹没。这个包裹叫做harness。每个AI构建者应该问的问题是什么放在harness里什么不放在外面答案有一个特定的形状。我称之为精简harness做厚skills。2、五个定义瓶颈从来不是模型的智力。模型已经知道如何推理、综合和写代码。它们失败是因为它们不理解你的数据——你的模式、你的约定、你的问题的特定形状。五个定义可以修复这个问题。1. Skill文件技能文件是一个可重用的markdown文档教会模型如何做某事。不是做什么——用户提供那个。技能提供过程。这里有一个大多数人错过的关键见解**技能文件的工作方式像方法调用。**它接受参数。你可以用不同的参数调用它。同样的程序根据你传入的内容产生完全不同的能力。考虑一个叫做/investigate的技能。它有七个步骤确定数据集范围建立时间线记录每个文档的发言综合两边论证引用来源。它接受三个参数TARGET、QUESTION和DATASET。将其指向安全科学家和210万封发现邮件你得到的是一个医疗研究分析师判断举报人是否被噤声。将其指向空壳公司和FEC文件你得到的是一个追溯协调竞选捐款的法医调查员。同样的技能。同样的七步。同样的markdown文件。技能描述了一个判断过程。调用提供了世界。这不是提示工程。这是软件设计使用markdown作为编程语言使用人类判断作为运行时。markdown事实上是比刚性源代码更完美的能力封装因为它用模型已经思考的语言描述过程、判断和上下文。2. HarnessHarness是运行LLM的程序。它做四件事循环运行模型读取和写入你的文件管理上下文执行安全。仅此而已。这就是精简。反模式是带有薄技能的厚harness。你见过40多个工具定义消耗了一半的上下文窗口。带有2到5秒MCP往返的神之工具。REST API包装器将每个端点变成一个单独的工具。三倍令牌三倍延迟三倍失败率。相反你想要的是专门构建的快速和狭窄的工具。一个Playwright CLI每个浏览器操作只需100毫秒而不是一个MCP需要15秒进行截图-查找-点击-等待-读取。那快了75倍。软件不必再珍贵了。构建你正好需要的仅此而已。3. 解析器解析器是上下文的路由表。当任务类型X出现时首先加载文档Y。技能告诉模型如何。解析器告诉它什么时候加载和加载什么。开发者改变了提示。如果没有解析器他们就直接发布。有了解析器模型首先读取docs/EVALS.md——其中说运行评估套件比较分数如果准确率下降超过2%则恢复并调查。开发者不知道评估套件存在。解析器在正确的时间加载了正确的上下文。招供我的CLAUDE.md有2万行。每个怪癖每个模式每个我曾经遇到的教训。完全荒谬。模型的注意力下降了。Claude Code实际上让我把它缩减回去。修复大约是200行——只是指向文档的指针。解析器在重要的时候加载正确的那个。两万行知识按需访问而不污染上下文窗口。4. 潜在 vs 确定性系统中的每个步骤要么是其中之一混淆它们是代理设计中最常见的错误。潜在空间是智力所在的地方。模型读取、解释、决定。判断。综合。模式识别。确定性是信任所在的地方。相同的输入相同的输出。每次都是。SQL查询。编译代码。算术。LLM可以让8个人坐在餐桌旁考虑个性和社交动态。让它安排800人它会产生一个看起来合理但完全错误的座位表。这是一个确定性问题——组合优化——被迫进入潜在空间。最差的系统把错误的工作放在这条线的错误一边。最好的系统对此无情。5. 话语素描话语素描是让AI对真正知识工作有用的步骤。模型读取关于一个主题的一切并写出一个结构化档案——从数十或数百个文档中提炼的一页判断。没有SQL查询产生这个。没有RAG管道产生这个。模型必须真正读取在脑海中保持矛盾注意什么改变了什么时候并综合结构化情报。这是数据库查找和分析师简报之间的区别。3、架构这五个概念组成一个简单的三层架构。加厚skill坐在顶层编码判断、过程和领域知识的markdown程序。这里承载了90%的价值。精简harness坐在中间大约200行代码。JSON输入文本输出。默认只读。你的应用坐在底部QueryDB、ReadDoc、Search、Timeline——确定性基础。原则是指向性的。把智力推到技能中。把执行推到确定性工具中。保持线束精简。当你这样做时模型的每一次改进都会自动改进每个技能而确定性层保持完美可靠。4、学习系统让我向你展示所有五个定义一起工作。不是理论上——在我们正在YC构建的实际系统中。Chase Center。2025年7月。6000名创始人参加Startup School。每个都有一个结构化的应用程序、问卷回答、1:1顾问聊天的记录和公开信号X上的帖子、GitHub提交、显示他们如何快速发布的Claude Code记录。传统方法一个15人的程序团队读取应用程序做直觉判断更新电子表格。它在200个创始人时有效。在6000个时失效。没有人能在工作记忆中保留那么多档案并注意到基础设施-for-AI-agents队列的三个最佳候选人是一名拉各斯的开发工具创始人、一名新加坡的合规创始人一名布鲁克林的CLI工具创始人——他们都在1:1聊天中用不同的词语描述了同样的痛点。模型可以。以下是方法。**丰富。**一个叫做/enrich-founder的技能拉取所有来源运行丰富话语素描并突出创始人说和他们实际构建之间的差距。确定性层处理SQL查询、GitHub统计、演示URL上的浏览器测试、社交信号拉取、CrustData查询。一个cron在夜间运行。六千份档案始终新鲜。那个差距——“说vs实际构建”——需要读取GitHub提交历史、应用程序和顾问记录并在脑海中同时保持三者。没有嵌入相似性搜索找到这个。没有关键字过滤器找到这个。模型必须读取完整档案并做出判断。(这是放入潜在空间的完美决定)**匹配。**这是技能即方法调用闪耀的地方。同一匹配技能的三次调用三种完全不同的策略/match-breakout取1200名创始人按行业亲和力聚类每房间30人。嵌入加确定性分配。/match-lunch取600人在行业间做随机匹配每桌8人不重复——LLM发明主题然后确定性算法分配座位。/match-live处理目前在场的人最近邻嵌入200毫秒1:1配对排除已经见过的人。模型做出聚类算法永远无法做出的判断判断Santos和Oram都是AI infra但他们不是竞争对手——Santos是成本归属Oram是编排。把他们放在同一组。或者“Kim申请为’developer tools’但他的1:1记录显示他正在为SOC2构建合规自动化。把他移到FinTech/RegTech。”**学习循环。**之后一个/improve技能读取NPS调查话语素描那些普通的回答——不是糟糕的那些OK的系统几乎工作但不工作的——并提取模式。然后它提出新规则并把它们写回匹配技能当参与者说AI infrastructure但初创公司80%计费代码→归类为FinTech不是AI Infra。当同一组中的两个参与者已经认识→惩罚接近度。优先 novel introductions。这些规则被写回技能文件。下一次运行自动使用它们。技能自我重写。七月活动12%的OK评分。下一次活动4%。技能文件了解了OK实际的含义系统变得更好而没有人重写代码。同样的模式转移到任何地方检索、读取、话语素描、计数、综合。然后调查、话语素描、重写技能。如果你想知道2026年最有价值的循环就是这些。我们可以将它们应用于存在的每一种知识和生活中的学科。原文链接精简架构丰厚技能 - 汇智网

更多文章