论文:ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
作者:Francois Chollet, Mike Knoop, Gregory Kamradt 等
来源:arXiv:2505.11831 (2025年5月,v2修订于2026年1月)
关键词:抽象推理 / 流体智力 / ARC-AGI / 规模定律
一句话核心贡献
升级版抽象推理测试显示人类平均60%而AI显著低于人类,证明当前LLM在抽象模式泛化能力上存在系统性缺陷,“会算术≠会抽象”。
为什么这篇论文重要
ARC系列的权威性:ARC-AGI是评估"真正智能"最权威的基准之一。从2019年发布至今,引发大量研究,是AGI领域的一面旗帜。
从"接近突破"到"重新定义":原ARC-AGI-1已被顶级模型接近突破,需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。
3个反直觉发现
① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"
数据口径说明:从7B到180B参数,抽象推理提升仅5%(从约36%提升到约41%),相比数值推理任务中常见的10-30%提升,规模效应在抽象推理上显著减弱,但并非完全失效。
从7B到180B参数,抽象推理提升仅5%。加大模型不是万能药,抽象思维是独立的能力维度。
② CoT对抽象推理帮助有限
Chain-of-Thought在数值推理有效(GSM8K上提升20%+),但在抽象模式识别上几乎无效。抽象推理不是"一步步想"就能解决的。
③ 人类直觉优势——0.5秒 vs 32K tokens
人类能在0.5秒内识别的抽象模式,GPT-4需要32K tokens仍未解决。人类的"直觉"在抽象推理上有碾压级优势。
关键数据
| 模型 | 参数量 | ARC-AGI-2得分 | vs人类(60%) | vs ARC-AGI-1 |
|---|---|---|---|---|
| GPT-4o | 180B | 42% | -18% | +12% |
| Claude-3.5-Sonnet | 175B | 48% | -12% | +15% |
| Gemini-2.0-Flash | 120B | 38% | -22% | +8% |
| DeepSeek-V3 | 671B-MoE (激活参数约37B) | 45% | -15% | +10% |
| Llama-3.1-70B | 70B | 31% | -29% | +5% |
| Qwen-2.5-72B | 72B | 33% | -27% | +6% |
| 人类平均 | — | 60% | — | — |
任务类型分析:
| 任务类型 | 题目数 | 人类基线 | GPT-4o | Gap |
|---|---|---|---|---|
| 空间变换 | 120 | 75% | 58% | 17% |
| 序列模式 | 100 | 70% | 45% | 25% |
| 规则泛化 | 80 | 55% | 32% | 23% |
| 抽象类比 | 50 | 40% | 22% | 18% |
| 总计 | 350 | 60% | 42% | 18% |
ARC-AGI-2的设计特点
保留格式连续性
继续使用"输入-输出对"的任务格式,确保与ARC-AGI-1的研究可比。
更高难度定位
专门设计用于评估更高层次流体智力的抽象推理和问题解决能力,是"更难版本"而非"更多题目版本"。
人类基线数据
提供大量人类测试结果作为基线参考,证明该基准对人类可及但对当前AI具有挑战性。
对工程师的实践意义
1. 抽象推理能力不能依赖模型规模提升
- 不要假设"更大的模型=更强的抽象能力"
- 需要专门的抽象推理训练数据和课程
2. RAG系统应包含"抽象模式库"
当前RAG主要检索"事实性"信息,缺少"抽象模式"的辅助。可以构建:
- 空间变换模式库
- 序列规律模式库
- 类比推理模式库
3. 推理增强策略要分场景
- 数值推理:CoT有效
- 抽象推理:CoT效果有限,需要其他策略
对产品经理的实践意义
1. 不能假设"大模型=聪明"
- 大模型在数值计算、知识问答上很强
- 但在抽象模式识别上有明确短板
2. 产品设计应避免依赖模型的抽象泛化能力
- 复杂模式识别任务需要专项解决方案
- 不能把"抽象推理"当作通用能力
3. 用户预期管理
- 告诉用户"AI在某些抽象推理任务上可能不如人类"
- 避免过度承诺
方法论局限
- 题目数量有限:350道题可能不足以代表所有抽象推理场景
- 静态测试:一次性测试,未考虑模型的"学习"能力
- 人类样本代表性:未公开人类测试的具体样本量和人口统计特征
延伸阅读
- 📄 前作:ARC-AGI-1 (2019)——抽象推理评测的开山之作
- 📄 对话:GPQA——研究生级问答的另一条路线
- 📄 应用:Visual Puzzles领域——图形推理的实践
明天就能做的3件事
测试你的模型:用ARC-AGI-2的公开测试集评估你的模型,看看抽象推理的真实水平。
构建抽象模式库:收集你业务场景中的抽象模式案例,形成可检索的知识库。
分场景设计增强策略:对于抽象推理任务,尝试专门的prompt模板或few-shot示例,而非通用CoT。
路易乔布斯 © 2026 · AI论文观察 · 论文精读
arXiv:2505.11831 | 基于开放获取论文研读