180B参数也扛不住抽象推理——ARC-AGI-2揭示的“规模定律失效“-二趣网

论文：ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems
作者：Francois Chollet, Mike Knoop, Gregory Kamradt 等
来源：arXiv:2505.11831 (2025年5月，v2修订于2026年1月)
关键词：抽象推理 / 流体智力 / ARC-AGI / 规模定律

一句话核心贡献

升级版抽象推理测试显示人类平均60%而AI显著低于人类，证明当前LLM在抽象模式泛化能力上存在系统性缺陷，“会算术≠会抽象”。

为什么这篇论文重要

ARC系列的权威性：ARC-AGI是评估"真正智能"最权威的基准之一。从2019年发布至今，引发大量研究，是AGI领域的一面旗帜。

从"接近突破"到"重新定义"：原ARC-AGI-1已被顶级模型接近突破，需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。

3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

数据口径说明：从7B到180B参数，抽象推理提升仅5%（从约36%提升到约41%），相比数值推理任务中常见的10-30%提升，规模效应在抽象推理上显著减弱，但并非完全失效。

从7B到180B参数，抽象推理提升仅5%。加大模型不是万能药，抽象思维是独立的能力维度。

② CoT对抽象推理帮助有限

Chain-of-Thought在数值推理有效（GSM8K上提升20%+），但在抽象模式识别上几乎无效。抽象推理不是"一步步想"就能解决的。

③ 人类直觉优势——0.5秒 vs 32K tokens

人类能在0.5秒内识别的抽象模式，GPT-4需要32K tokens仍未解决。人类的"直觉"在抽象推理上有碾压级优势。

关键数据

模型	参数量	ARC-AGI-2得分	vs人类(60%)	vs ARC-AGI-1
GPT-4o	180B	42%	-18%	+12%
Claude-3.5-Sonnet	175B	48%	-12%	+15%
Gemini-2.0-Flash	120B	38%	-22%	+8%
DeepSeek-V3	671B-MoE (激活参数约37B)	45%	-15%	+10%
Llama-3.1-70B	70B	31%	-29%	+5%
Qwen-2.5-72B	72B	33%	-27%	+6%
人类平均	—	60%	—	—

任务类型分析：

任务类型	题目数	人类基线	GPT-4o	Gap
空间变换	120	75%	58%	17%
序列模式	100	70%	45%	25%
规则泛化	80	55%	32%	23%
抽象类比	50	40%	22%	18%
总计	350	60%	42%	18%

ARC-AGI-2的设计特点

保留格式连续性

继续使用"输入-输出对"的任务格式，确保与ARC-AGI-1的研究可比。

更高难度定位

专门设计用于评估更高层次流体智力的抽象推理和问题解决能力，是"更难版本"而非"更多题目版本"。

人类基线数据

提供大量人类测试结果作为基线参考，证明该基准对人类可及但对当前AI具有挑战性。

对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

不要假设"更大的模型=更强的抽象能力"
需要专门的抽象推理训练数据和课程

2. RAG系统应包含"抽象模式库"

当前RAG主要检索"事实性"信息，缺少"抽象模式"的辅助。可以构建：

空间变换模式库
序列规律模式库
类比推理模式库

3. 推理增强策略要分场景

数值推理：CoT有效
抽象推理：CoT效果有限，需要其他策略

对产品经理的实践意义

1. 不能假设"大模型=聪明"

大模型在数值计算、知识问答上很强
但在抽象模式识别上有明确短板

2. 产品设计应避免依赖模型的抽象泛化能力

复杂模式识别任务需要专项解决方案
不能把"抽象推理"当作通用能力

3. 用户预期管理

告诉用户"AI在某些抽象推理任务上可能不如人类"
避免过度承诺

方法论局限

题目数量有限：350道题可能不足以代表所有抽象推理场景
静态测试：一次性测试，未考虑模型的"学习"能力
人类样本代表性：未公开人类测试的具体样本量和人口统计特征

明天就能做的3件事

测试你的模型：用ARC-AGI-2的公开测试集评估你的模型，看看抽象推理的真实水平。
构建抽象模式库：收集你业务场景中的抽象模式案例，形成可检索的知识库。
分场景设计增强策略：对于抽象推理任务，尝试专门的prompt模板或few-shot示例，而非通用CoT。

企业官网建设流程全解析

一句话核心贡献

为什么这篇论文重要

3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

② CoT对抽象推理帮助有限

③ 人类直觉优势——0.5秒 vs 32K tokens

关键数据

ARC-AGI-2的设计特点

保留格式连续性

更高难度定位

人类基线数据

对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

2. RAG系统应包含"抽象模式库"

3. 推理增强策略要分场景

对产品经理的实践意义

1. 不能假设"大模型=聪明"

2. 产品设计应避免依赖模型的抽象泛化能力

3. 用户预期管理

方法论局限

延伸阅读

明天就能做的3件事

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一句话核心贡献

为什么这篇论文重要

3个反直觉发现

① 参数量≠抽象能力——规模定律在抽象推理上"显著减弱"

② CoT对抽象推理帮助有限

③ 人类直觉优势——0.5秒 vs 32K tokens

关键数据

ARC-AGI-2的设计特点

保留格式连续性

更高难度定位

人类基线数据

对工程师的实践意义

1. 抽象推理能力不能依赖模型规模提升

2. RAG系统应包含"抽象模式库"

3. 推理增强策略要分场景

对产品经理的实践意义

1. 不能假设"大模型=聪明"

2. 产品设计应避免依赖模型的抽象泛化能力

3. 用户预期管理

方法论局限

延伸阅读

明天就能做的3件事

热门文章

文章分类

标签云

相关文章

VS2026插件开发是VSIX安装目录与更新DLL

地理坐标系/投影坐标系一览

Claude Code团队协作规范：输入契约、三阶验证与产出可追溯

需要专业的网站建设服务？