Agent = LLM + Tools + Knowledge + Memory
这是目前 AI 行业内构建自主智能体(AI Agent)最经典、最公认的标准教科书级架构公式(最初由 OpenAI 的科学家 Lilian Weng 在其著名的 Agent 综述博客中奠定)。
大模型(LLM)本身只是一个“聪明的脑袋”,但如果没有公式里的另外三项,它就只能当一个被动聊天的“键盘侠”。只有把这四要素集齐,它才能飞升成为一个真正能替人类干活的数字员工。
我们用通俗且极客的语言来彻底拆透这个公式的四个底层核心:
1. LLM(大语言模型)—— 🧠 核心大脑
扮演角色:中央处理器、逻辑推理引擎、总指挥部。
核心功能:负责理解、规划和反思。当用户给出一个复杂任务时(比如:“帮我分析 Meta 增发对股价的影响并写份报告”),LLM 负责把这个大任务拆解成 Step 1、Step 2、Step 3 的具体计划(Planning)。
2. Tools(工具调用能力)—— 🛠️ 双手与双脚
扮演角色:执行机构、现实世界的接口。
核心功能:大模型虽然懂很多知识,但他没办法直接帮你看当下的天气、没办法直接运行 Python 代码、也没办法直接去你的网盘下载文件。
具体形态:API 接口、计算器、网页浏览器(Web Browser)、Python 解释器(Code Interpreter)。
作用机制:通过Function Calling(函数调用)。LLM 发现自己算不准高位数乘法,于是决定“调用计算器工具”;发现自己不知道昨天的最新新闻,于是决定“调用 Google 搜索工具”。Tools 让 Agent 具备了改变和干预现实世界的能力。
3. Knowledge(外部知识库)—— 📚 随身携带的外挂字典
扮演角色:垂直领域的专业背景、行业外脑。
核心功能:LLM 的预训练数据是通用的、宽泛的,它不知道你公司内部的财务报表,也不知道你本地电脑里的专属项目文件。
具体形态:RAG(检索增强生成)系统、向量数据库(Vector DB)、企业 Wiki 知识库。
作用机制:在 Agent 思考之前,系统先去向量数据库里检索出相关的专业文档(这就是我们前面聊到的Indexing 入库后的检索),然后作为背景资料喂给 LLM,确保它回答专业问题时不产生幻觉,精准专业。
4. Memory(记忆机制)—— 💾 情感与上下文的连续性
扮演角色:海马体、持久化数据库。
核心功能:防止大模型成为“鱼的记忆”。传统 LLM 的对话是“单次清空”的,如果没有 Memory,你上一句话刚跟他交代完你的职业是软件开发,下一句话他就忘了。
具体形态:
短期记忆(Short-term Memory):当前的 Context(上下文会话历史),通常通过 LangChain 的 ChatMessageHistory 实现。
长期记忆(Long-term Memory):将用户的个人偏好、历史核心决策持久化存入数据库(如 Redis、User Profile 数据库)。
作用机制:让 Agent 能够“随着时间的推移而进化”。它会记得你喜欢简明扼要的报告风格,记得你上个月做过什么项目,从而提供真正个性化的全栈服务。
💡 架构师总结
如果你只有 LLM:它是一个聊天机器人(Chatbot)。
如果你有了 LLM + Tools:它是一个自动化脚本/插件系统。
当你把 LLM + Tools + Knowledge + Memory 融为一体:它才真正蜕变成了一个Agent(智能体)。
它能像人类一样:用大脑思考(LLM),查阅专业资料(Knowledge),记住过去的经验(Memory),并熟练地操作各种软件和电脑工具(Tools)去把工作彻底闭环。这也正是现在大家为什么都在用LangGraph去死磕这个公式落地的原因。