当你用 ReAct 或简单 create_agent 跑通第一个 Demo 时,兴奋感很强。可一旦放到真实业务里,问题就来了:输出偶尔出错、格式不一致、没有按预期触发、跑了几次就停滞不前。模型换再新、prompt 调再细,这些问题依然反复出现。
原因不是模型不够聪明,而是你只构建了最基础的那一层循环。LangChain 团队的 Sydney Runkle 最近系统梳理了“Loopcraft”(循环工艺)的四层堆叠思路,清晰指出:生产级 Agent 的可靠性与进化能力,来自精心设计的多层循环栈,而非单一执行循环。
下面我们把这套思路拆解清楚,并对应 LangChain 的实际原语。
为什么基础 Agent Loop 总是不够用
最核心的 Agent 循环极其简单:模型拿到上下文 → 调用工具 → 观察结果 → 再次决策,直到任务完成。这就是 LangChaincreate_agent直接给你的一切。它能让 Agent 完成具体动作,但无法保证每次都正确,也无法让系统随着使用自动变好。
就像只给一个实习生布置任务,却没有导师检查、没有自动触发机制、也没有根据历史表现优化工作流程。实习生偶尔能交出合格答卷,但你永远不敢让他独立负责重要项目。
四层循环的完整栈
LangChain 把围绕 Agent 的能力分成了四个可叠加的循环层级,每一层都解决上一层无法覆盖的问题。
第 1 层:Agent Loop(核心执行层)
模型 + 工具的闭环执行。这是所有 Agent 的起点。
LangChain 原语:create_agent(model, tools)
在这个层级,Agent 可以克隆仓库、读取文件、修改文档、提交 PR 等真实动作。但它不会自己发现错误,也不会在没人叫它的时候主动运行。
第 2 层:Verification Loop(验证反馈层)
在 Agent Loop 外面再包一层检查机制。每次 Agent 输出后,自动运行 grader(可以是确定性规则,也可以是 LLM-as-Judge)。如果不达标,就把失败原因和反馈送回模型,让它重试。
LangChain 原语:RubricMiddleware或after_agenthook。
以 LangChain 内部的文档改进 Agent 为例:验证层会自动跑测试、检查链接是否有效、确认 diff 范围是否符合请求。只有全部通过才算完成。
代价是每轮多花一些 token 和延迟,但换来的是明显更高的首次通过率。这层在质量比速度更重要的场景下几乎是必选项。
第 3 层:Event-Driven Loop(事件触发层)
让 Agent 不再需要人工手动调用,而是接入真实生态系统。
新文档落地、定时任务触发、Slack 频道收到消息、Webhook 到达……这些事件都能自动唤醒 Agent。
LangChain 原语:LangSmith Deployment(支持 cron + webhook)、Fleet 的 channels 与 schedules。
LangChain 团队的文档 Agent 就是通过 Slack 频道触发:有人在 #docs-plz 发消息,Agent 就自动开始工作。
这一层把 Agent 从“工具”变成了“系统组件”,实现了真正的后台自动化。
第 4 层:Hill Climbing Loop(持续攀升层)
这是最被低估却价值最高的一层。
每次 Agent 运行都会产生完整 trace(模型决策、工具调用、验证反馈等)。Hill Climbing Loop 用分析 Agent(LangSmith Engine)去挖掘这些 trace,找出系统性问题,然后自动或半自动地改写 prompt、调整工具、优化 grader 配置,甚至为开源模型生成微调数据。
关键在于:反馈不是简单回到第 1 层,而是直接修改内层循环的配置。每一轮外循环,都让内层循环变得更强。
LangChain 原语:LangSmith Engine + trace 分析。
把四层画在一起就是这样:
四层循环的对比与权衡
| 循环层级 | 解决的核心问题 | LangChain 关键组件 | 主要代价 | 生产价值 |
|---|---|---|---|---|
| Level 1 Agent | 让模型能执行动作 | create_agent + tools | 容易出错、不一致 | 基础自动化 |
| Level 2 验证 | 保证输出质量 | RubricMiddleware / after_agent | 增加延迟与 token 消耗 | 高质量交付 |
| Level 3 事件 | 实现后台持续运行 | LangSmith Deployment + Fleet | 系统集成复杂度 | 真正嵌入业务 |
| Level 4 攀升 | 让系统随时间自我进化 | LangSmith Engine | 需要积累 trace 数据 | 长期竞争力 |
前两层解决“能不能可靠完成单次任务”,后两层解决“能不能持续嵌入组织并变得越来越好”。
人类判断依然不可或缺
自动化不等于去人化。在每个层级都存在自然的人类介入点:
- Level 1:敏感操作前要求人工确认
- Level 2:高风险场景让人类担任最终 grader
- Level 3:重要输出上线前人工审批
- Level 4:重大配置变更前人工审核
LangChain 把这些“human-in-the-loop”点做成了第一公民原语,方便你在任何一层插入人工判断。
真正的竞争优势来自哪里
Satya 曾说过类似的话:那些最早建立学习循环、让人类判断与 token 资本共同复利的公司,会建立难以复制的优势。
今天大多数团队还在第 1 层打转。少数团队开始重视第 2 层验证。真正领先的团队,已经在同时经营第 3 层集成和第 4 层自我进化。
Loopcraft 的本质是:不要再试图用一个完美的 prompt 解决所有问题,而是用多层循环把“执行 + 验证 + 集成 + 进化”系统化。模型只是燃料,循环才是引擎。
下次你设计或优化一个 Agent 时,不妨先问自己四个问题:
- 我有没有为它加上验证反馈?
- 它能不能被事件自动触发?
- 我有没有机制去分析它的 trace 并持续改进?
- 人类判断应该在哪一层介入最有效?
把这四个问题回答清楚,你的 Agent 就从“能跑通 Demo”变成了“能在生产环境里长期创造价值”。
本文基于 LangChain 团队 Sydney Runkle 的分享,以及 swyx 的 loopcraft 概念重构而成。
我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。