180B参数也扛不住抽象推理——ARC-AGI-2揭示的“规模定律失效“
2026/6/7 9:16:40 网站建设 项目流程

论文:ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
作者:Francois Chollet, Mike Knoop, Gregory Kamradt 等
来源:arXiv:2505.11831 (2025年5月,v2修订于2026年1月)
关键词:抽象推理 / 流体智力 / ARC-AGI / 规模定律


一句话核心贡献

升级版抽象推理测试显示人类平均60%而AI显著低于人类,证明当前LLM在抽象模式泛化能力上存在系统性缺陷,“会算术≠会抽象”。


为什么这篇论文重要

ARC系列的权威性:ARC-AGI是评估"真正智能"最权威的基准之一。从2019年发布至今,引发大量研究,是AGI领域的一面旗帜。

从"接近突破"到"重新定义":原ARC-AGI-1已被顶级模型接近突破,需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。


3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

数据口径说明:从7B到180B参数,抽象推理提升仅5%(从约36%提升到约41%),相比数值推理任务中常见的10-30%提升,规模效应在抽象推理上显著减弱,但并非完全失效。

从7B到180B参数,抽象推理提升仅5%。加大模型不是万能药,抽象思维是独立的能力维度。

② CoT对抽象推理帮助有限

Chain-of-Thought在数值推理有效(GSM8K上提升20%+),但在抽象模式识别上几乎无效。抽象推理不是"一步步想"就能解决的。

③ 人类直觉优势——0.5秒 vs 32K tokens

人类能在0.5秒内识别的抽象模式,GPT-4需要32K tokens仍未解决。人类的"直觉"在抽象推理上有碾压级优势。


关键数据

模型参数量ARC-AGI-2得分vs人类(60%)vs ARC-AGI-1
GPT-4o180B42%-18%+12%
Claude-3.5-Sonnet175B48%-12%+15%
Gemini-2.0-Flash120B38%-22%+8%
DeepSeek-V3671B-MoE (激活参数约37B)45%-15%+10%
Llama-3.1-70B70B31%-29%+5%
Qwen-2.5-72B72B33%-27%+6%
人类平均60%

任务类型分析

任务类型题目数人类基线GPT-4oGap
空间变换12075%58%17%
序列模式10070%45%25%
规则泛化8055%32%23%
抽象类比5040%22%18%
总计35060%42%18%

ARC-AGI-2的设计特点

保留格式连续性

继续使用"输入-输出对"的任务格式,确保与ARC-AGI-1的研究可比。

更高难度定位

专门设计用于评估更高层次流体智力的抽象推理和问题解决能力,是"更难版本"而非"更多题目版本"。

人类基线数据

提供大量人类测试结果作为基线参考,证明该基准对人类可及但对当前AI具有挑战性。


对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

  • 不要假设"更大的模型=更强的抽象能力"
  • 需要专门的抽象推理训练数据和课程

2. RAG系统应包含"抽象模式库"

当前RAG主要检索"事实性"信息,缺少"抽象模式"的辅助。可以构建:

  • 空间变换模式库
  • 序列规律模式库
  • 类比推理模式库

3. 推理增强策略要分场景

  • 数值推理:CoT有效
  • 抽象推理:CoT效果有限,需要其他策略

对产品经理的实践意义

1. 不能假设"大模型=聪明"

  • 大模型在数值计算、知识问答上很强
  • 但在抽象模式识别上有明确短板

2. 产品设计应避免依赖模型的抽象泛化能力

  • 复杂模式识别任务需要专项解决方案
  • 不能把"抽象推理"当作通用能力

3. 用户预期管理

  • 告诉用户"AI在某些抽象推理任务上可能不如人类"
  • 避免过度承诺

方法论局限

  • 题目数量有限:350道题可能不足以代表所有抽象推理场景
  • 静态测试:一次性测试,未考虑模型的"学习"能力
  • 人类样本代表性:未公开人类测试的具体样本量和人口统计特征

延伸阅读

  • 📄 前作:ARC-AGI-1 (2019)——抽象推理评测的开山之作
  • 📄 对话:GPQA——研究生级问答的另一条路线
  • 📄 应用:Visual Puzzles领域——图形推理的实践

明天就能做的3件事

  1. 测试你的模型:用ARC-AGI-2的公开测试集评估你的模型,看看抽象推理的真实水平。

  2. 构建抽象模式库:收集你业务场景中的抽象模式案例,形成可检索的知识库。

  3. 分场景设计增强策略:对于抽象推理任务,尝试专门的prompt模板或few-shot示例,而非通用CoT。


路易乔布斯 © 2026 · AI论文观察 · 论文精读
arXiv:2505.11831 | 基于开放获取论文研读

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询