太强了!清华开源的 Agent 操作系统,让 AI 记忆白盒可追溯,Token 成本直降 5 倍!
💡 你是否遇到过 AI Agent 多任务并行时记忆互相污染、Token 烧钱如流水、人一走活就停的痛点?今天介绍一个由清华 THUNLP 联合面壁智能开源的项目 PilotDeck,它用 WorkSpace 隔离 + 白盒记忆 + 智能路由三大杀招,彻底重新定义了 Agent 的生产力边界。
📌 目录
- 1. 先看效果
- 2. 项目简介
- 3. 它能做什么?(三大核心能力)
- 4. 实测数据:省了多少钱?
- 5. 5 分钟快速上手
- 6. 核心原理揭秘
- 7. 白盒记忆 vs 黑盒:一张表看懂差距
- 8. 适用场景与优缺点
- 9. 总结
1. 先看效果
以下所有演示均由端侧模型通过 PilotDeck 智能路由完成生成——无需调用云端大模型!
🎬场景 1:“调研一下中国大模型应用市场,整理成一份正式的 HTML 白皮书”
🎬场景 2:“用 Vibe Coding 模式陪我做一款 iOS AR 小游戏《找球球》”
🎬场景 3:“把这期英文播客推送给中日法韩西阿六语全球受众”
🎬场景 4:“从零造一个 Embedding 低代码调优平台”
是不是有点震撼?更震撼的是,这一切都是端侧模型跑出来的,背后靠的就是 PilotDeck 的智能路由机制。
2. 项目简介
PilotDeck是一个以「WorkSpace(工作舱)」为核心设计的开源智能体操作系统,由清华大学 THUNLP 实验室、面壁智能、OpenBMB与AI9Stars联合研发并开源。
🔗 项目地址:https://github.com/OpenBMB/PilotDeck
🚀 2026 年 5 月 28 日正式开源,官网:https://pilotdeck.openbmb.cn
当前 AI Agent 领域已有不少优秀成果:
| 项目 | 侧重方向 |
|---|---|
| Claude Code / Cursor / Trae Solo | 编程 IDE 深度集成 |
| Claude Cowork | 项目隔离 + 桌面端知识工作 |
| WorkBuddy | IM 生态(企微/飞书)AI 接入 |
但当我们把视角切换到长周期、多项目并行的生产力创作时,有几个关键问题始终没被回答:
- ❓ 多项目并行时,记忆能否做到白盒可追溯?AI 记错了,能否直接定位修改?
- ❓ Token 成本能否按任务分项追踪?让后台常驻变得经济可行?
- ❓ 不同难度的任务,能否自动匹配不同模型?
- ❓ 人离开电脑后,活能否继续推进?
PilotDeck 正是围绕这些问题做的增量探索。
3. 它能做什么?(三大核心能力)
🧠 能力一:WorkSpace 级隔离与沉淀
每个项目拥有独立的专属文件系统、记忆库与技能集。多任务并行互不干扰,检索空间有边界,技能随任务自动沉淀,告别全局上下文污染。
一句话理解:就像给每个项目开了独立的"房间",你在 A 房间做的事,不会影响 B 房间。
📝 能力二:可追溯的白盒记忆
记忆的生成、抽取、存储与使用全链路可见。AI 记错时可直接定位并手动修改。内置Dream 模式,利用空闲时间自动归纳整理,并支持一键回滚。
一句话理解:AI 记住了什么、什么时候记的、怎么用的——你全部看得见、改得了、回得去。
🔀 能力三:智能路由与成本优化
内置任务难度识别,复杂任务调用强力模型(如 Claude 3.5 Sonnet / GPT-4o),简单任务降级至轻量模型。通过端云协同与精准匹配,大幅降低 Token 消耗。
一句话理解:大事用大脑,小事用小脑,不浪费一分钱。
🔄 能力四:Always-on 常驻执行
突破"你问我答"的限制。用户离开后,Agent 仍能在后台主动发现潜在任务、执行长周期监控、将成果落地为本地文件与摘要汇报。
一句话理解:你下班了,AI 还在加班——而且有产出、有汇报。
4. 实测数据:省了多少钱?
场景一:小红书社媒运营
| 方案 | 模型编排 | 费用 | 倍率 |
|---|---|---|---|
| ✅ 开启省钱路由 | 主 Opus 4.5 + 子 Sonnet 4.5 | $2.83 | 1.1× |
| ❌ 不开省钱路由 | 全 Opus 4.5(主+子) | $12.58 | 5.0× |
| ❌ 单体大模型 | 单体 Opus 4.5 长 react(预估) | $12.20 | 4.8× |
智能路由一开,成本直降近 5 倍!
场景二:7 个复杂任务对比测试
在播客多语言推送、多源数据报告、领域论文综述、代码库架构文档等 7 个复杂任务上的对比:
| 配置 | 得分 | 成本 |
|---|---|---|
| MiniMax-M2.7 单 Agent | 37.1 | $1.90 |
| Claude Sonnet 4.6 单 Agent | 69.1 | $18.36 |
| ✅主 Sonnet 4.6 + 子 MiniMax-M2.7 | 70.6 | $3.15 |
"主强子弱"路由编排,以 1/6 的成本达到最高分!
5. 5 分钟快速上手
方式一:一键安装(推荐)
curl-fsSLhttps://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh|bash脚本会自动配置 Node.js 22 环境、克隆代码、安装依赖并编译前端。
安装完成后直接运行:
pilotdeck# 在 http://localhost:3001 启动服务pilotdeck status# 查看运行状态方式二:源码启动
第一步:克隆代码与安装依赖
# ⚠️ 本仓库使用 Git LFS 管理大型媒体文件,克隆前确保已安装 git lfs# 如果不需要演示视频/GIF,可加 GIT_LFS_SKIP_SMUDGE=1 跳过下载gitclone https://github.com/OpenBMB/PilotDeck.gitcdPilotDecknpminstall# 安装根目录依赖(Gateway 运行时)cdui&&npminstall# 安装 UI 依赖cd..第二步:配置模型 Provider
创建~/.pilotdeck/pilotdeck.yaml:
schemaVersion:1agent:model:deepseek/deepseek-v4-promodel:providers:deepseek:protocol:openaiurl:https://api.deepseek.com/v1apiKey:sk-your-api-key💡 也可以启动 Web UI 后直接在设置界面进行可视化配置,支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等多种协议。
第三步:启动服务
cdui&&npmrun dev# 开发模式(HMR),访问 http://localhost:5173# 或cdui&&npmrun start# 生产模式,访问 http://localhost:3001方式三:Docker 启动
dockercompose up-d6. 核心原理揭秘
架构设计:以 WorkSpace 为基本单位
PilotDeck 的核心设计理念是WorkSpace-Centric:
┌──────────────────────────────────────────┐ │ PilotDeck OS │ │ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ WorkSpace A │ │ WorkSpace B │ ... │ │ │ ┌─────────┐ │ │ ┌─────────┐ │ │ │ │ │ Files │ │ │ │ Files │ │ │ │ │ ├─────────┤ │ │ ├─────────┤ │ │ │ │ │ Memory │ │ │ │ Memory │ │ │ │ │ ├─────────┤ │ │ ├─────────┤ │ │ │ │ │ Skills │ │ │ │ Skills │ │ │ │ │ └─────────┘ │ │ └─────────┘ │ │ │ └─────────────┘ └─────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ Smart Router (路由层) │ │ │ │ 复杂任务 → 旗舰模型 │ │ │ │ 简单任务 → 轻量模型 │ │ │ └────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ Always-on Engine (常驻引擎) │ │ │ │ 主动发现任务 → 执行 → 落地汇报 │ │ │ └────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ MCP Protocol (原生支持) │ │ │ └────────────────────────────────────┘ │ └──────────────────────────────────────────┘智能路由机制
PilotDeck 的智能路由不是简单的"全走大模型"或"全走小模型",而是:
- 任务难度识别:自动判断当前任务的复杂度
- 分级调度:规划、决策等关键节点 → 旗舰模型;润色、排版等执行节点 → 轻量模型
- 端云协同:端侧模型处理日常任务,云侧模型只用在关键时刻
- 成本追踪:按任务维度追踪 Token 消耗,让"后台常驻"变得经济可行
白盒记忆系统
传统 Agent 的记忆是黑盒——你不知道 AI 记住了什么、记错了什么。PilotDeck 的白盒记忆实现了:
用户交互 → 记忆生成 → 记忆抽取 → 记忆存储 → 记忆检索 ↑ ↓ └──────── 全链路可见、可编辑、可回滚 ──────────┘- Dream 模式:空闲时自动归纳整理记忆
- 一键回滚:整理后不满意,一键回到整理前状态
- 按 WorkSpace 隔离:A 项目的记忆永远不会污染 B 项目
7. 白盒记忆 vs 黑盒:一张表看懂差距
| 维度 | 传统黑盒 Agent | PilotDeck 白盒 |
|---|---|---|
| 🔍 可见性 | 看不到 AI 记住了什么,只能看到最终输出 | 随时查看每条记忆的内容、时间、所属 WorkSpace |
| 🎛️ 可控性 | 写入后无法修改、删除,只能等 AI 自己"想明白" | 手动增删改、标记关键节点,重要决策不丢失 |
| 🔗 可追溯 | 出错时无法定位根本原因 | 生成→抽取→存储→使用,每个环节可查可改 |
| 🏠 隔离性 | 共享一个记忆池,跨项目互相污染 | 按 WorkSpace 隔离,A 的记忆不会跑到 B |
| ⏪ 可回滚 | 压缩后无法查看原始内容 | Dream 整理后支持一键回滚,不怕"越整理越乱" |
8. 适用场景与优缺点
✅ 适合的场景
- 🎯多项目并行的开发者:同时维护多个项目,需要记忆隔离
- 🎯AI 应用运维团队:需要常驻 Agent 在后台执行监控任务
- 🎯内容创作者:社媒运营、多语言推送等需要成本控制
- 🎯研究团队:需要端到端可追溯的 Agent 记忆系统
⚖️ 优缺点分析
| 维度 | 评分 | 说明 |
|---|---|---|
| 易用性 | ⭐⭐⭐⭐ | 一键安装脚本,开箱即用的 Web UI |
| 创新性 | ⭐⭐⭐⭐⭐ | 白盒记忆 + 智能路由 + Always-on,业内首创组合 |
| 成本控制 | ⭐⭐⭐⭐⭐ | 实测成本降 5 倍,智能路由效果显著 |
| 生态 | ⭐⭐⭐ | 原生 MCP 支持 + ClawHub 社区,但刚开源,生态还在成长 |
| 文档 | ⭐⭐⭐⭐ | 官网有完整教程,README 详尽 |
⚠️ 注意事项
- 当前一键安装脚本仅支持 macOS / Linux,Windows 用户需用 Docker 或 WSL
- 刚开源不久(2026.05.28),部分功能可能还在快速迭代中
9. 总结
PilotDeck 是我近期看到的最有想象力的 Agent OS 项目。它没有在"单次对话"这个层面卷,而是直接瞄准了长周期、多项目并行的真实生产力场景:
- 🧠WorkSpace 隔离:多项目互不干扰,技能随任务沉淀
- 📝白盒记忆:全链路可见、可控、可回滚,告别黑盒焦虑
- 🔀智能路由:大事用大脑小事用小脑,成本直降 5 倍
- 🔄Always-on:你下班了 AI 还在干活,有产出有汇报
推荐指数:⭐⭐⭐⭐⭐
如果你在做 AI Agent 相关的开发或运维,这个项目绝对值得一看。开源不到一周,Star 数正在快速增长,现在是上车的最好时机!
📢 原文链接:https://github.com/OpenBMB/PilotDeck
🌐 官网:https://pilotdeck.openbmb.cn
🎮 在线体验:https://pilotdeck.openbmb.cn/pilotdeck.github.io/demo/p/pilotdeck-demo
标签:#PilotDeck #AI #Agent #智能体操作系统 #MCP