从 LLM 到 Agent Skill,龙虾的技术基础 · ⑦ Agent

张开发
2026/4/17 4:01:24 15 分钟阅读

分享文章

从 LLM 到 Agent Skill,龙虾的技术基础 · ⑦ Agent
从 LLM 到 Agent Skill龙虾的技术基础 · ⑦ Agent本系列共 8 篇。总览从 LLM 到 Agent Skill我理解的 AI 应用进化路线这篇写给谁如果你已经完成了 Prompt、Tool、MCP 的基础建设但系统仍然停留在“被动问答”这篇就是关键升级点。一句话先定性Agent 不是“更长 Prompt”而是一个会规划、会执行、会纠错的闭环系统。1Agent 到底是什么先把概念拉直工程上可以把 Agent 定义为围绕目标进行多步决策并通过工具与外部世界交互依据反馈持续修正策略直到达成目标或触发终止条件的系统。所以 Agent 不是单个模型而是组合体模型推理与决策记忆上下文与状态工具执行动作控制流循环、分支、重试、终止2Agent 的核心闭环Plan - Act - Observe - Reflect一个高质量 Agent通常按下面四步循环Plan计划明确目标、拆解步骤Act执行调用工具完成一步动作Observe观察读取工具结果与环境反馈Reflect反思判断是否达标决定下一步继续、重试、降级、终止。这个循环的本质是“边做边改”而不是一次性把答案写完。3为什么 Agent 比单轮问答强也更难Agent 的优势适合多步骤任务检索、分析、执行、回写能处理不完整信息先查再答能在失败后自我修正重试/换策略。Agent 的代价链路变长故障点变多成本与延迟更高可能出现死循环、误调用、越权调用。所以 Agent 的价值和风险是一体两面能力上限更高工程纪律要求也更高。4Agent 的 5 种常见形态实战视角结合业界常见分类与落地经验可以粗分为反应式 AgentReactive基于当前输入快速响应少规划工作流 AgentWorkflow-driven按固定流程执行多用于企业流程自动化规划型 AgentPlanner先拆解再执行适合复杂任务多 Agent 协作Multi-agent角色分工协同研究员、执行者、审计者人在回路 AgentHITL Agent关键步骤需人工批准。不是越“智能”越好关键看任务风险与可控性要求。5与 ReAct 的关系为什么“思考 行动”是经典范式ReAct 的核心思想是把Reasoning推理和Acting行动交错进行推理负责决定下一步行动通过工具拿到真实反馈反馈再反哺推理。这比“纯思维链不落地”更稳因为它会被外部事实持续校正。你可以把 ReAct 看成现代 Agent 的方法论底座之一。6Agent 架构最容易翻车的 6 个点目标定义模糊不知道“完成”是什么意思。步骤粒度失衡一步太大不可控太小效率低。工具契约不清参数、返回、错误语义混乱。无终止条件无限重试导致死循环。无状态管理每轮“失忆”重复犯错。无安全闸门高风险动作直接执行。这些问题与模型强弱关系不大主要是系统设计问题。7生产级 Agent 的最小控制面要把 Agent 真正上线至少要有以下控制面1任务控制最大步数max_steps总超时timeout成本上限token/tool budget2工具控制工具白名单参数 schema 校验幂等与重试策略高风险工具审批3状态控制当前步骤状态中间结果缓存可恢复运行状态中断后续跑4安全控制认证与授权审计日志敏感动作的人在回路HITL8人在回路HITLAgent 走向生产的关键闸门很多团队把 HITL 当“体验退化”其实它是可控自动化的核心。推荐在这些动作前强制审批支付、退款、删除外发邮件/消息对外系统状态变更涉及隐私/合规的数据导出。最佳实践是先生成执行草案 - 人工批准 - 再执行。这样既保持自动化效率也避免高风险误操作。9Agent 的评估方法别只看“像不像人话”评估 Agent 要看“任务完成质量”而不只是文本质量。建议至少追踪Task Success Rate任务完成率Step Efficiency平均步数Tool Accuracy工具选择与参数准确率Recovery Rate失败后恢复成功率Safety Violations越权/违规动作次数Cost/Latency单任务成本与端到端延迟。同时要做回归测试Prompt 变更、工具变更、模型升级后都要跑固定任务集。10从单 Agent 到多 Agent什么时候该升级不是所有问题都要多 Agent。先用单 Agent 跑通再考虑拆分角色。适合多 Agent 的场景任务天然可分工研究、执行、审计单 Agent 上下文负担过重你需要强审计链路执行与评审分离。不适合多 Agent 的场景任务简单且单步可完成团队监控能力不足成本敏感且实时性要求高。11一个可落地的 Agent 实施路线阶段 1单 Agent 单工具流明确目标与终止条件接 1~3 个高价值工具建立日志与回放。阶段 2引入规划与重试加 Plan-Act-Observe-Reflect 循环增加失败分支与降级策略加成本/步数预算。阶段 3生产治理人在回路审批权限与审计打通固定评测集回归。阶段 4多 Agent 协作可选角色拆分执行者、审计者等统一任务总线增加跨 Agent 追踪与诊断。小结Agent 的核心价值是把“语言能力”升级为“目标导向执行能力”。Agent 的核心挑战是可控性而不是生成能力本身。真正可上线的 Agent靠的是闭环控制 工具契约 安全闸门 持续评估。下一篇《⑧ Agent Skill》——如何把高频 Agent 任务沉淀成可复用能力模块。延伸阅读视频Agent 类型与应用5 Types of AI Agents: Autonomous Functions Real-World ApplicationsReAct 方法介绍GoogleReAct: Synergizing Reasoning and Acting in Language ModelsReAct 项目页ReAct official pageOpenAI Agents SDKGuardrailsGuardrailsOpenAI Agents SDKHITLHuman-in-the-loop系列龙虾的技术基础 ⑦/8

更多文章