太强了!清华开源的 Agent 操作系统,让 AI 记忆白盒可追溯,Token 成本直降 5 倍!
2026/6/6 20:49:54 网站建设 项目流程

太强了!清华开源的 Agent 操作系统,让 AI 记忆白盒可追溯,Token 成本直降 5 倍!

💡 你是否遇到过 AI Agent 多任务并行时记忆互相污染、Token 烧钱如流水、人一走活就停的痛点?今天介绍一个由清华 THUNLP 联合面壁智能开源的项目 PilotDeck,它用 WorkSpace 隔离 + 白盒记忆 + 智能路由三大杀招,彻底重新定义了 Agent 的生产力边界。

📌 目录

  • 1. 先看效果
  • 2. 项目简介
  • 3. 它能做什么?(三大核心能力)
  • 4. 实测数据:省了多少钱?
  • 5. 5 分钟快速上手
  • 6. 核心原理揭秘
  • 7. 白盒记忆 vs 黑盒:一张表看懂差距
  • 8. 适用场景与优缺点
  • 9. 总结

1. 先看效果

以下所有演示均由端侧模型通过 PilotDeck 智能路由完成生成——无需调用云端大模型!

🎬场景 1:“调研一下中国大模型应用市场,整理成一份正式的 HTML 白皮书”

🎬场景 2:“用 Vibe Coding 模式陪我做一款 iOS AR 小游戏《找球球》”

🎬场景 3:“把这期英文播客推送给中日法韩西阿六语全球受众”

🎬场景 4:“从零造一个 Embedding 低代码调优平台”

是不是有点震撼?更震撼的是,这一切都是端侧模型跑出来的,背后靠的就是 PilotDeck 的智能路由机制。


2. 项目简介

PilotDeck是一个以「WorkSpace(工作舱)」为核心设计的开源智能体操作系统,由清华大学 THUNLP 实验室面壁智能OpenBMBAI9Stars联合研发并开源。

🔗 项目地址:https://github.com/OpenBMB/PilotDeck

🚀 2026 年 5 月 28 日正式开源,官网:https://pilotdeck.openbmb.cn

当前 AI Agent 领域已有不少优秀成果:

项目侧重方向
Claude Code / Cursor / Trae Solo编程 IDE 深度集成
Claude Cowork项目隔离 + 桌面端知识工作
WorkBuddyIM 生态(企微/飞书)AI 接入

但当我们把视角切换到长周期、多项目并行的生产力创作时,有几个关键问题始终没被回答:

  • ❓ 多项目并行时,记忆能否做到白盒可追溯?AI 记错了,能否直接定位修改?
  • ❓ Token 成本能否按任务分项追踪?让后台常驻变得经济可行?
  • ❓ 不同难度的任务,能否自动匹配不同模型
  • ❓ 人离开电脑后,活能否继续推进

PilotDeck 正是围绕这些问题做的增量探索。


3. 它能做什么?(三大核心能力)

🧠 能力一:WorkSpace 级隔离与沉淀

每个项目拥有独立的专属文件系统、记忆库与技能集。多任务并行互不干扰,检索空间有边界,技能随任务自动沉淀,告别全局上下文污染。

一句话理解:就像给每个项目开了独立的"房间",你在 A 房间做的事,不会影响 B 房间。

📝 能力二:可追溯的白盒记忆

记忆的生成、抽取、存储与使用全链路可见。AI 记错时可直接定位并手动修改。内置Dream 模式,利用空闲时间自动归纳整理,并支持一键回滚。

一句话理解:AI 记住了什么、什么时候记的、怎么用的——你全部看得见、改得了、回得去。

🔀 能力三:智能路由与成本优化

内置任务难度识别,复杂任务调用强力模型(如 Claude 3.5 Sonnet / GPT-4o),简单任务降级至轻量模型。通过端云协同与精准匹配,大幅降低 Token 消耗。

一句话理解:大事用大脑,小事用小脑,不浪费一分钱。

🔄 能力四:Always-on 常驻执行

突破"你问我答"的限制。用户离开后,Agent 仍能在后台主动发现潜在任务、执行长周期监控、将成果落地为本地文件与摘要汇报

一句话理解:你下班了,AI 还在加班——而且有产出、有汇报。


4. 实测数据:省了多少钱?

场景一:小红书社媒运营

方案模型编排费用倍率
✅ 开启省钱路由主 Opus 4.5 + 子 Sonnet 4.5$2.831.1×
❌ 不开省钱路由全 Opus 4.5(主+子)$12.585.0×
❌ 单体大模型单体 Opus 4.5 长 react(预估)$12.204.8×

智能路由一开,成本直降近 5 倍!

场景二:7 个复杂任务对比测试

在播客多语言推送、多源数据报告、领域论文综述、代码库架构文档等 7 个复杂任务上的对比:

配置得分成本
MiniMax-M2.7 单 Agent37.1$1.90
Claude Sonnet 4.6 单 Agent69.1$18.36
主 Sonnet 4.6 + 子 MiniMax-M2.770.6$3.15

"主强子弱"路由编排,以 1/6 的成本达到最高分!


5. 5 分钟快速上手

方式一:一键安装(推荐)

curl-fsSLhttps://raw.githubusercontent.com/OpenBMB/PilotDeck/main/install.sh|bash

脚本会自动配置 Node.js 22 环境、克隆代码、安装依赖并编译前端。

安装完成后直接运行:

pilotdeck# 在 http://localhost:3001 启动服务pilotdeck status# 查看运行状态

方式二:源码启动

第一步:克隆代码与安装依赖

# ⚠️ 本仓库使用 Git LFS 管理大型媒体文件,克隆前确保已安装 git lfs# 如果不需要演示视频/GIF,可加 GIT_LFS_SKIP_SMUDGE=1 跳过下载gitclone https://github.com/OpenBMB/PilotDeck.gitcdPilotDecknpminstall# 安装根目录依赖(Gateway 运行时)cdui&&npminstall# 安装 UI 依赖cd..

第二步:配置模型 Provider

创建~/.pilotdeck/pilotdeck.yaml

schemaVersion:1agent:model:deepseek/deepseek-v4-promodel:providers:deepseek:protocol:openaiurl:https://api.deepseek.com/v1apiKey:sk-your-api-key

💡 也可以启动 Web UI 后直接在设置界面进行可视化配置,支持 OpenAI、Anthropic、DeepSeek、Qwen、Kimi、MiniMax 等多种协议。

第三步:启动服务

cdui&&npmrun dev# 开发模式(HMR),访问 http://localhost:5173# 或cdui&&npmrun start# 生产模式,访问 http://localhost:3001

方式三:Docker 启动

dockercompose up-d

6. 核心原理揭秘

架构设计:以 WorkSpace 为基本单位

PilotDeck 的核心设计理念是WorkSpace-Centric

┌──────────────────────────────────────────┐ │ PilotDeck OS │ │ │ │ ┌─────────────┐ ┌─────────────┐ │ │ │ WorkSpace A │ │ WorkSpace B │ ... │ │ │ ┌─────────┐ │ │ ┌─────────┐ │ │ │ │ │ Files │ │ │ │ Files │ │ │ │ │ ├─────────┤ │ │ ├─────────┤ │ │ │ │ │ Memory │ │ │ │ Memory │ │ │ │ │ ├─────────┤ │ │ ├─────────┤ │ │ │ │ │ Skills │ │ │ │ Skills │ │ │ │ │ └─────────┘ │ │ └─────────┘ │ │ │ └─────────────┘ └─────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ Smart Router (路由层) │ │ │ │ 复杂任务 → 旗舰模型 │ │ │ │ 简单任务 → 轻量模型 │ │ │ └────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ Always-on Engine (常驻引擎) │ │ │ │ 主动发现任务 → 执行 → 落地汇报 │ │ │ └────────────────────────────────────┘ │ │ │ │ ┌────────────────────────────────────┐ │ │ │ MCP Protocol (原生支持) │ │ │ └────────────────────────────────────┘ │ └──────────────────────────────────────────┘

智能路由机制

PilotDeck 的智能路由不是简单的"全走大模型"或"全走小模型",而是:

  1. 任务难度识别:自动判断当前任务的复杂度
  2. 分级调度:规划、决策等关键节点 → 旗舰模型;润色、排版等执行节点 → 轻量模型
  3. 端云协同:端侧模型处理日常任务,云侧模型只用在关键时刻
  4. 成本追踪:按任务维度追踪 Token 消耗,让"后台常驻"变得经济可行

白盒记忆系统

传统 Agent 的记忆是黑盒——你不知道 AI 记住了什么、记错了什么。PilotDeck 的白盒记忆实现了:

用户交互 → 记忆生成 → 记忆抽取 → 记忆存储 → 记忆检索 ↑ ↓ └──────── 全链路可见、可编辑、可回滚 ──────────┘
  • Dream 模式:空闲时自动归纳整理记忆
  • 一键回滚:整理后不满意,一键回到整理前状态
  • 按 WorkSpace 隔离:A 项目的记忆永远不会污染 B 项目

7. 白盒记忆 vs 黑盒:一张表看懂差距

维度传统黑盒 AgentPilotDeck 白盒
🔍 可见性看不到 AI 记住了什么,只能看到最终输出随时查看每条记忆的内容、时间、所属 WorkSpace
🎛️ 可控性写入后无法修改、删除,只能等 AI 自己"想明白"手动增删改、标记关键节点,重要决策不丢失
🔗 可追溯出错时无法定位根本原因生成→抽取→存储→使用,每个环节可查可改
🏠 隔离性共享一个记忆池,跨项目互相污染按 WorkSpace 隔离,A 的记忆不会跑到 B
⏪ 可回滚压缩后无法查看原始内容Dream 整理后支持一键回滚,不怕"越整理越乱"

8. 适用场景与优缺点

✅ 适合的场景

  • 🎯多项目并行的开发者:同时维护多个项目,需要记忆隔离
  • 🎯AI 应用运维团队:需要常驻 Agent 在后台执行监控任务
  • 🎯内容创作者:社媒运营、多语言推送等需要成本控制
  • 🎯研究团队:需要端到端可追溯的 Agent 记忆系统

⚖️ 优缺点分析

维度评分说明
易用性⭐⭐⭐⭐一键安装脚本,开箱即用的 Web UI
创新性⭐⭐⭐⭐⭐白盒记忆 + 智能路由 + Always-on,业内首创组合
成本控制⭐⭐⭐⭐⭐实测成本降 5 倍,智能路由效果显著
生态⭐⭐⭐原生 MCP 支持 + ClawHub 社区,但刚开源,生态还在成长
文档⭐⭐⭐⭐官网有完整教程,README 详尽

⚠️ 注意事项

  • 当前一键安装脚本仅支持 macOS / Linux,Windows 用户需用 Docker 或 WSL
  • 刚开源不久(2026.05.28),部分功能可能还在快速迭代中

9. 总结

PilotDeck 是我近期看到的最有想象力的 Agent OS 项目。它没有在"单次对话"这个层面卷,而是直接瞄准了长周期、多项目并行的真实生产力场景

  • 🧠WorkSpace 隔离:多项目互不干扰,技能随任务沉淀
  • 📝白盒记忆:全链路可见、可控、可回滚,告别黑盒焦虑
  • 🔀智能路由:大事用大脑小事用小脑,成本直降 5 倍
  • 🔄Always-on:你下班了 AI 还在干活,有产出有汇报

推荐指数:⭐⭐⭐⭐⭐

如果你在做 AI Agent 相关的开发或运维,这个项目绝对值得一看。开源不到一周,Star 数正在快速增长,现在是上车的最好时机!

📢 原文链接:https://github.com/OpenBMB/PilotDeck
🌐 官网:https://pilotdeck.openbmb.cn
🎮 在线体验:https://pilotdeck.openbmb.cn/pilotdeck.github.io/demo/p/pilotdeck-demo


标签:#PilotDeck #AI #Agent #智能体操作系统 #MCP

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询