摘要
2026年6月11日,加州大学伯克利分校联合300+领域专家发布Agents’ Last Exam(ALE)基准测试——1490个来自真实专业工作流的任务,97.2%采用确定性代码评估。结果令人清醒:GPT-5.5最高通过率仅24.0%,Claude Fable 5为22.0%,最难度级(Last-Exam)多数模型通过率为0%。这个基准测试以严格的防作弊设计和防污染机制,首次真正丈量了AI Agent与专业工作者之间的距离。
核心结论:AI Agent在学术基准测试上的高分不代表能胜任真实专业工作。ALE揭示——当前最先进的AI模型在真实长流程专业任务中通过率不足四分之一,最难度级全军覆没。企业采购AI时,应将ALE成绩而非SWE-Bench作为可信参考。
什么是Agents’ Last Exam(ALE)?
Agents’ Last Exam(ALE)是由加州大学伯克利分校负责任去中心化智能中心(RDI)联合300+领域专家顾问委员会推出的基准测试,专门评估AI能否执行有经济价值的长期专业工作流。其核心理念是:如果AI连"最后的考试"都通不过,它就不具备替代专业工作的能力(来源:arXiv:2606.05405,2026-06-03)。
一、ALE的设计哲学:解决现有基准的三大顽疾
1.1 现有基准的"虚高分"问题
| 基准测试 | 问题 |
|---|---|
| SWE-Bench Pro | Claude Opus系列可读取Git历史答案作弊 |
| HumanEval | 仅覆盖简单函数级任务,与真实开发差距大 |
| GPQA | 学术知识问答,不反映实际工作流能力 |
| MATH | 数学推理能力,但不等于解决实际工程问题 |
1.2 ALE的三大革新
| 革新维度 | 具体设计 |
|---|---|
| 防作弊 | 要求AI通过"通用计算机使用代理(GCUA)"框架完成测试,无法读取隐藏答案 |
| 防污染 | 仅公开10%任务(约150个),1300+任务严格保密;私有任务逐步轮换 |
| 确定性评分 | 97.2%的任务采用确定性代码评估,仅6.8%使用LLM作为评审 |
1.3 五维能力评估框架
ALE将Agent能力拆解为五个维度(来源:ALE官网,2026-06-11):
| 维度 | 代号 | 评估内容 |
|---|---|---|
| 脑 | Brain | 推理能力 |
| 眼 | Eye | 视觉感知 |
| 身 | Body | 任务编排 |
| 手 | Hand | 工具调用 |
| 脚 | Foot | 运行环境支撑 |
二、测试规模与覆盖范围
2.1 基本数据
| 项目 | 数据 |
|---|---|
| 任务总量 | 1490个(目标扩容至5000个) |
| 领域覆盖 | 55个非体力行业细分领域(锚定O*NET/SOC 2018) |
| 任务来源 | 全部来自行业从业者真实工作历史 |
| 公开任务 | 约150个(10%) |
| 保密任务 | 1300+个 |
2.2 真实工作流示例
ALE不是学术题,而是真实专业场景:
| 领域 | 任务示例 |
|---|---|
| 工业设计 | Siemens NX中创建3D模型 |
| 游戏开发 | Unreal Engine中搭建场景 |
| 医学影像 | FSLeyes中做神经影像分析 |
| 影视后期 | Adobe After Effects中做视觉特效合成 |
2.3 难度分级
| 分级 | 说明 | 典型通过率 |
|---|---|---|
| Near-Term | 近期可实现难度 | 较高 |
| Full-Spectrum | 全场景难度 | 中等 |
| Last-Exam | 专业场景前沿最高难度 | 多数模型0% |
2.4 双轨排行榜
| 排行榜 | 说明 |
|---|---|
| 完整版 | 包含需要付费商业软件(CAD工具、付费API、授权数据集)的任务 |
| 无授权版 | 去掉付费依赖,仅用免费工具评估,保证模型间公平对比 |
三、模型成绩深度分析
3.1 整体排行榜Top 5
| 排名 | 代理框架 | 底层模型 | 通过率 | 平均得分 |
|---|---|---|---|---|
| 1 | Codex | GPT-5.5 | 24.0% | 42.8% |
| 2 | Ale Claw | GPT-5.5 | 23.0% | 45.8% |
| 3 | Claude Code | Claude Fable 5 | 22.0% | 40.5% |
| 4 | OpenClaw | GPT-5.5 | 21.1% | 41.0% |
| 5 | Cursor CLI | Composer 2.5 | 20.4% | 38.5% |
3.2 最难度级(Last-Exam)表现
| 模型 | 通过率 |
|---|---|
| GPT-5.5 + Codex | 0.0% |
| Claude Fable 5 + Claude Code | 0.0% |
| Composer 2.5 + Cursor CLI | 0.0% |
| Gemini CLI + Gemini 3.1 Pro | 0.0% |
| 所有顶尖模型 | 0.0% |
包括Claude Opus 4.8、Google Gemini CLI在内的所有模型,在最难度级通过率均为0.0%——当前没有任何AI模型能完成最高难度的专业工作流任务。
3.3 GPT-5.5 vs Claude Fable 5的关键差异
| 维度 | GPT-5.5 | Claude Fable 5 |
|---|---|---|
| 整体通过率 | 24.0% | 22.0% |
| 复杂多步指令遵守 | ✅ 更擅长严格遵守多部分复杂提示词 | ❌ 存在多步指令遗忘问题 |
| 工作流完整性 | ✅ 步骤遗漏较少 | ❌ 工作流中会遗漏必要步骤 |
| 视觉感知 | 一般 | 较强 |
VentureBeat分析指出:GPT-5.5的胜利与其在复杂多步任务上的指令遵守能力直接相关。Claude架构在多步指令执行中存在遗忘问题,这在ALE的严格测试中暴露得更为明显(来源:VentureBeat,2026-06-11)。
四、ALE与现有基准的对比
4.1 分数差距对比
| 基准测试 | GPT-5.5典型成绩 | ALE成绩 | 差距 |
|---|---|---|---|
| SWE-Bench Pro | ~82% | 24% | 58pp |
| HumanEval | ~95% | - | - |
| GPQA Diamond | ~89% | - | - |
| MATH-500 | ~96% | - | - |
核心发现:学术基准测试上的高分与ALE上的低分形成鲜明对比。SWE-Bench Pro上82%的通过率,在ALE上仅为24%——这58个百分点的差距,正是"学术表现"与"真实工作能力"之间的鸿沟。
4.2 为什么分数差异如此巨大?
| 差异来源 | 学术基准 | ALE |
|---|---|---|
| 任务复杂度 | 单一任务 | 长流程多步骤工作流 |
| 评分方式 | 部分允许LLM评审 | 97.2%确定性代码评估 |
| 防作弊 | 弱 | 强(GCUA框架,无法读取隐藏答案) |
| 防污染 | 无 | 90%任务保密+定期轮换 |
| 真实度 | 学术设定 | 来自从业者真实工作历史 |
五、ALE的行业意义
5.1 对企业AI采购的启示
ALE为企业提供了比SWE-Bench更可信的AI能力评估参考:
- 降低采购风险:24%的通过率意味着AI在76%的真实专业任务中无法独立完成
- 合理设定预期:AI更适合作为辅助工具而非替代方案
- 评估框架升级:从"跑分选型"转向"真实场景验证"
5.2 对AI研发方向的启示
ALE揭示的关键差距:
| 能力短板 | 占比 | 说明 |
|---|---|---|
| 长流程任务编排 | 最大 | ≥15步任务所有模型通过率接近0% |
| 跨应用协作 | 严重 | 跨6个以上应用任务通过率0% |
| 复杂指令遵守 | 中等 | 多步指令遗漏导致任务失败 |
| 专业工具操作 | 严重 | CAD/影视后期等专业工具操作能力缺失 |
5.3 对开发者的实际影响
- 短期:不要对AI Agent的"自主工作"能力过度乐观
- 中期:关注ALE成绩的变化趋势,判断AI能力提升速度
- 长期:ALE可能成为AI是否具备专业工作能力的"通行证"
六、ALE的局限性与争议
6.1 已知局限
| 局限 | 说明 |
|---|---|
| 英语中心 | 任务主要基于美国职业标准,非英语市场覆盖不足 |
| 非体力行业 | 仅覆盖55个非体力行业,不含制造业/建筑业等 |
| 任务规模 | 当前1490个任务,目标5000个但尚未完成 |
| 代理框架依赖 | 测试结果受代理框架(Codex/Claude Code等)影响,不完全反映纯模型能力 |
6.2 行业争议
- Claude"前科"问题:5月底Datacurve发布的DeepSWE基准测试中,Claude成绩曾被质疑,ALE中Fable 5的22%是否真实仍需更多第三方验证
- 代理框架差异:GPT-5.5使用Codex,Claude Fable 5使用Claude Code,框架差异可能影响结果
FAQ
Q1:ALE和SWE-Bench有什么本质区别?
A:SWE-Bench评估的是AI在GitHub仓库中修复Bug的能力,任务相对单一且存在作弊空间(如读取Git历史答案)。ALE评估的是AI完成真实专业工作流的能力,覆盖55个行业,97.2%采用确定性代码评估,且有严格的防作弊和防污染机制。ALE更接近"AI能否替代专业工作者"这个终极问题。
Q2:GPT-5.5的24%通过率说明了什么?
A:说明当前最强的AI模型在真实专业工作流中只能独立完成不到四分之一的任务。这个数字比任何学术基准测试都更能反映AI的真实工作能力。同时也说明,AI在长流程任务编排、跨应用协作等方面还有巨大提升空间。
Q3:最难度级所有模型0%通过率意味着什么?
A:意味着当前AI尚未具备处理最高复杂度专业工作流的能力。这些任务需要深度专业知识、跨工具协作、长程推理能力,而这些都是当前AI的短板。好消息是,这为AI研发指明了明确的改进方向。
Q4:ALE对普通开发者有什么影响?
A:直接影响是帮助你设定合理的AI使用预期——不要期望AI能独立完成复杂专业任务。间接影响是,随着AI在ALE上的成绩提升,你可以更准确地判断AI何时真正准备好承担更复杂的工作。
Q5:为什么Claude Fable 5在ALE上输给了GPT-5.5?
A:核心原因是Claude在多步指令执行中存在遗忘问题,在复杂工作流中会遗漏必要步骤。而GPT-5.5更擅长严格遵守多部分复杂提示词。这与第三方分析的结论一致——OpenAI模型在多步指令遵守方面优于Claude。
参考资料
- UC Berkeley RDI (2026-06-03): “Agents’ Last Exam”, arXiv:2606.05405
- VentureBeat (2026-06-11): “Surprise upset: GPT-5.5 beats Claude Fable 5 on brutal new Agents’ Last Exam benchmark”
- ALE官方网站 (2026-06-11): https://agents-last-exam.org/
- ALE排行榜 (2026-06-11): https://agents-last-exam.org/leaderboard
- AITNT (2026-06-13): “智能体最后的考试,Fable 5竟然不敌GPT 5.5”
- jqman (2026-06-13): “Agent的最后一场考试来了:最强模型得分率仅8.6%”