编译 | 苏宓
出品 | CSDN(ID:CSDNnews)
是时候,让全球顶级 AI 实验室考虑放缓开发步伐了...
发出这一呼吁的,不是 AI 领域的批评者,而是如今站在行业最前沿的 Claude 开发商 Anthropic——这家成立仅 5 年、估值高达 9000 亿美元的新锐 AI 初创公司。
Anthropic 给出的理由也很直接:AI 正在越来越多地参与 AI 本身的研发过程,而距离“AI 构建 AI”的时代,可能已经没有想象中那么遥远。
在 Anthropic 看来,一旦 AI 具备自主设计、训练和优化下一代模型的能力,人类将面临一个前所未有的问题:如何持续监督这些系统、确保它们始终处于可控状态,并让其发展方向符合人类利益。
值得注意的是,Anthropic 的担忧并非建立在纯粹的理论推演之上。相反,这一判断来自两个方面:一方面是过去几年整个行业公开可见的能力跃迁;另一方面则是 Anthropic 内部积累的大量实际研发数据。
在最新发布的长篇研究报告《When AI Builds Itself(当 AI 构建自身)》中,Anthropic 系统梳理了 AI 在“递归式自我改进”方向上的最新进展,并试图回答两个关键问题:
AI 距离真正开始“研发自己”还有多远?
面对「未来的这一天」,当前行业该怎么做?
20XX 年,“递归式自我改进”时代即将到来
过去几年,Anthropic 正逐步把越来越多的 AI 研发工作交给 AI 系统本身完成:
2021-2023 年,构建第一个 Claude。这时 Anthropic 的工作方式与大多数科技公司并没有本质区别:工程师坐在电脑前写代码、写文档,AI 尚未真正参与研发过程。
2023-2025 年,聊天机器人开始进入工作流,例如生成简短代码片段,开发者再手动复制到 IDE 中完成后续工作。
2025-2026 年,随着 Claude Code 等编码 Agent 出现,AI 能够独立编写和修改代码,有时候也能编辑整个文件。
到了今天,“自主 Agent”已出现,它们可以自己运行代码,还能把任务进一步拆分,并交给其他 Agent 处理,连续完成数小时的工作。
如果按照这种趋势持续下去,并且拥有足够的算力支持,Anthropic 指出,最终可能会出现这样一种 AI:它能够完全自主地设计并开发出自己的下一代版本。这种现象被称为“递归式自我改进(Recursive Self-Improvement)”。
在 Anthropic 设想的下一阶段——时间轴上的“20XX 年”,整个循环将被彻底闭合。
毋庸置疑,如果 AI 能够自主构建下一代 AI 系统,这将成为技术发展史上的一个重要里程碑,并有望在科学研究、医疗健康等众多领域释放巨大价值,为社会带来广泛益处。
但另一方面,完全实现递归式自我改进,也可能增加人类失去对 AI 系统控制权的风险。倘若 AI 已经具备独立构建其后继系统的能力,那么如何保障系统安全、如何持续进行监督,以及如何确保其行为符合人类预期,都将变得更加重要。
Anthropic 表示,我们距离这一阶段还有相当长的路要走,而且递归式自我改进也并非一定会发生。但它到来的时间,可能比大多数机构和组织预想的更早。
这一点可以从外部以及 Anthropic 内部的使用情况看出来。
CSDN 6 月宠粉福利
200 小时 GPU 算力免费送
瑞幸咖啡/肯德基早餐/麦当劳套餐/下午茶等能量套餐任选其一
入群还可每月定期抽取旗舰显卡、AI PC 等极客神装
来自外部的证据
Anthropic 表示,衡量这一趋势的一个重要指标是:AI 能够独立完成任务的时长正在迅速增长。过去,这个数字大约每 7 个月翻一倍;如今,已经缩短到每 4 个月翻一倍左右。
2024 年 3 月,Claude Opus 3 大致能够独立完成需要人类花费 4 分钟左右的软件开发任务。一年后的 Claude Sonnet 3.7,已经能处理耗时约 1 个半小时的任务。再过一年,Claude Opus 4.6 能够完成持续约 12 小时的工作任务。
如果这一趋势持续下去,那么今年之内,AI 可能就能胜任那些需要熟练工程师花费数天时间才能完成的工作。而到了 2027 年,AI 系统甚至可能具备处理需要数周时间才能完成任务的能力。
类似的变化也体现在编程和科研领域的各类基准测试中。基准测试用于衡量模型在特定领域的能力表现。当模型成绩接近满分时,通常意味着这一测试已经被“刷满”或“跑满”,很难再区分不同模型之间的能力差异。
SWE-bench 是目前广泛使用的软件工程能力测试。它会向模型提供一个真实的开源项目和一份真实的 Bug 报告,要求模型修改代码、修复问题,并通过项目原有的测试用例。短短两年时间里,模型在这一测试上的成绩已经从个位数水平一路提升到接近满分。
科研领域也出现了类似情况。CORE-Bench 主要测试模型能否复现已有研究成果,而这被认为是开展原创科研工作的前提条件。测试会向模型提供一篇已发表论文对应的代码和数据,然后要求模型重新运行整个实验流程,并验证是否能够得到与论文一致的结果。
2024 年,AI 复现成功率还只有约 20%;仅仅 15 个月后,模型已经基本达到这一测试的上限。负责研究长周期任务能力的机构 METR 也发现,Claude Mythos Preview 能够连续工作至少 16 个小时,其表现已经接近 METR 现有评测体系能够测量的上限。如果想继续评估更强模型的能力,他们甚至需要设计全新的测试任务。
公开基准测试能够很好地反映这些 AI 系统能力正在快速提升,但它们无法直接反映另一件同样重要的事情:AI 是否正在加速 AI 本身的发展。
想回答这个问题,就需要看看 Anthropic 内部发生了什么。
Anthropic 内部的变化
如今,Claude 已经承担了 Anthropic 大量的代码编写工作。
80% 代码由 Claude 完成
截至 2026 年 5 月,Anthropic 主代码库中超过 80% 被合并的代码,最初都由 Claude 编写。而在 2025 年 2 月 Claude Code 以研究预览版发布之前,这一比例还只有个位数。
这种变化同样体现在工程师的产出效率上。在 Anthropic 成立后的前四年(2021—2024 年),每位工程师每天提交到代码库中的代码量基本保持稳定。
到了 2025 年,这条曲线开始明显上升。原因在于 Claude 不再只是给出代码建议,等待工程师复制粘贴,而是能够直接运行和修改代码。
进入 2026 年后,随着模型开始能够在更长时间范围内自主完成工作,这一增长趋势再次加速。
数据显示,2026 年第二季度,Anthropic 普通工程师每天提交的代码量,已经达到 2024 年同期的 8 倍。
出现这种变化的原因并不是工程师打字速度突然变快了,而是越来越多代码实际上由 Claude 完成。工程师更多是在设定目标、指导方向以及审核结果,而不再亲自编写每一行代码。
Anthropic 特别指出,有一个需要先说明的前提:代码行数并非完美的衡量标准,因为它衡量的是数量而非质量。因此,该团队表示,2026 年第二季度“每位工程师每天代码量提升 8 倍”这个数字,很可能高估了真实的效率提升幅度。尽管如此,它至少说明了一件事:整体产出确实在加速。
当然,Anthropic 称其内部并不会根据代码行数来评价员工贡献。换句话说,大家并不是为了“写更多代码”而去写代码。代码量的增加,本质上是因为工程师开始更频繁地使用 AI 系统来完成原本需要自己写的部分。
这种“产出变多”的变化,也和工程师的主观感受基本一致。在 2026 年 3 月,Anthropic 对 130 名来自不同研究团队的员工做了一次调查。结果显示,中位数受访者认为:在使用 Mythos Preview 的情况下,他们在自己原本就会参与的项目中,整体产出大约提升了 4 倍。
不过,从整体判断来看,这个“4 倍”的数字可能还是偏乐观了一些。但即便如此,这个结论仍然和其他观察结果一致:相当一部分 Anthropic 技术人员,确实正在以数倍于过去的速度完成核心工作。
除此之外,Anthropic 还看到一个同样重要的现象:人们开始用 Claude 去做一些“如果没有 AI,大概率不会做”的工作。比如构建一些探索性的工具,或者处理长期被搁置的代码清理任务。
举个例子,在 2026 年 4 月,Claude 一次性修复了 800 多个 API 错误,这些修复让某一类 API 报错率下降了约 1000 倍。负责这一工作的工程师估计,如果完全由人类来做,这项工作可能需要四年时间才能完成。原因很简单:这类工作通常又琐碎又耗时,而且需要在脑中同时处理大量不熟悉的系统上下文。
AI 正在写出“好代码”
在 Anthropic 看来,所谓的“好代码”,主要有两个标准:第一是能正确运行;第二是结构清晰,其他工程师能够理解并在此基础上继续开发。
在第一个标准上,Anthropic 表示,过去一年里,其员工在 Claude 执行任务过程中进行干预、纠正或接管的频率一直在下降,即便是在复杂、开放式任务中也是如此。这里说的“开放式任务”,指的是那些没有明确答案、工程师自己也不完全确定最终结果应该是什么的工作。
从 Claude 在不同难度任务上的成功率变化也可以看到这一点,它正在越来越多地独立完成真正可用的代码。
在最开放式的任务中,Claude 在 2026 年 5 月的成功率达到了 76%,在六个月内提升了 50 %。
第二个衡量标准,是代码是否足够清晰,能否让其他工程师理解并继续开发。在这一点上,人类与 AI 之间的差距仍然存在,但正在快速缩小。
Anthropic 内部员工并没有完全一致的看法,但很多人认为,在 2025 年末,Claude 生成的代码质量仍然略低于人类工程师;而到了今天,已经大致接近持平;预计在一年之内可能会超过人类水平。
这一变化也改变了 Anthropic 内部代码审查的方式。
现在,Anthropic 声称,其所有提交到代码库的改动,在合并之前,都会先经过一个由 Claude 驱动的自动审查系统,用于检查 bug、安全问题以及其他潜在缺陷。
基于这一工具,他们还做了一次回溯分析,发现:如果对过去 claude.ai 生产环境中的所有代码变更都进行这种自动审查,大约三分之一导致事故的 bug,本可以在上线前被提前发现。
而这些代码的作者,本身都是世界上最顶尖的工程师之一。换句话说,如今 Claude 已经开始捕捉那些顶级人类工程师也会遗漏的错误。
Claude 擅长在既定目标下不断进行实验,以找到更优解
每次 Anthropic 发布新模型时,该团队内部都会运行一个固定测试:给 Claude 一段用于训练小型 AI 模型的代码,然后要求它在保证正确性的前提下,让训练速度尽可能快。
在这个任务中,目标和评估标准都是提前固定好的,Claude 的工作就是不断修改代码、运行实验、计时、再修改,循环优化。这本质上是一个微缩版的实验研究流程。
在 2025 年 5 月,Claude Opus 4 平均能让代码运行速度提升约 3 倍。
到了 2026 年 4 月,Claude Mythos Preview 已经可以达到约 52 倍的提升。
作为对比,一名熟练的人类研究员通常需要 4 到 8 小时才能实现 4 倍加速。
在这个研究流程的环节中,也就是在明确实验目标下进行优化——Claude 在不到一年时间里,从“很好用”变成了“超过人类水平”。
Claude 在提出自己实验设计方面的能力也在提升
2026 年 4 月,Anthropic 发布了一个重要实验:首次展示 Claude 端到端运行一个开放式研究项目。
在这个实验中,由 Claude 驱动的 Agent 被交给一个 AI 安全领域的开放问题——“较弱的模型能否可靠地监督更强的模型?”,然后让它们自行探索解决方案。
整个过程包括提出假设、设计实验、测试结果、在多个并行 Agent 之间共享发现,并不断迭代。
这个任务本身有明确的“下限”和“上限”:下限是弱监督模型单独完成时的表现,上限是强模型在正确答案监督下训练后的表现。
两名人类研究员在大约一周时间内,弥补了约 23% 的性能差距。而 Claude 驱动的 Agent 在约 800 小时的累计运行中恢复了 97%,消耗约 1.8 万美元算力。
这个实验存在一些局限性:它并没有完全迁移到生产级模型上,而且问题选择和评分标准仍然由人类设定。但在这些约束条件下,实验设计本身已经完全由 Agent 完成,人类的主要作用只剩下方向设定。
Claude 在把研究过程逐步引导向真正“有结果的方向”这件事上,正在变得越来越好
长文中,Anthropic 还分析了 2026 年 1 月到 3 月之间真实的 Claude Code 会议记录,这些记录来自 Anthropic 研究人员与 Claude 一起处理开放式调查任务的场景,比如:为什么某次训练会不断崩溃,或者为什么某个模型在基准测试中表现异常低。
在每一段记录中,Anthropic 发现了一个共同点:研究人员在某个时刻“绕了一下路”,他们尝试了一个方向,但这个方向让整个调试或研究过程偏离了主线,直到后来才重新回到正轨。
随后,他们只截取这些会话中“走偏之前”的部分,把不同版本的 Claude 模型放进去,询问它们下一步会怎么做。同时,他们还使用另一个 Claude,它能够看到整个会话最终是如何发展的,让它去判断:在那个关键节点上,是 AI 还是人类提出的下一步更好。
需要强调的是,这类样本(n=129)是刻意挑选的——Anthropic 表示,我们选择的都是“人类判断存在改进空间”的时刻。因此,这并不是一个严格意义上的人机对照实验,而更像是在一组真实且具有挑战性的情境中,观察模型在“下一步决策”能力上的演化。
在这些情境里,正确答案本身并不显而易见,人类的选择只是一个有意义的参照基准,用来衡量模型在不同时间点的表现变化。在这一指标上,2025 年 11 月的最佳模型(Opus 4.5)在 51% 的情况下优于人类选择;到了 2026 年 4 月的 Mythos Preview,这一比例提升到了 64%。
而研究工作在很大程度上,本质上就是由一连串这样的“下一步该做什么”的决策构成的。
因此,这一结果可以被视为一个早期信号:AI 正在逐步具备 AI 研究所依赖的那种判断能力。
Anthropic 未来的工作会变成什么样?
现有证据表明,在 AI 研发流程的每一个环节中,人类的角色都在逐步收缩。
一旦人类与 AI 生成的代码质量达到持平,人类很可能会不再亲自写代码,而转向只负责审查代码。
但如果 AI 写代码的速度远远超过人类审查速度,那么“代码审查”本身就会成为新的瓶颈,从而反过来限制整体研发效率。
类似地,一旦 Claude 能够独立运行实验,下一个关键问题就会变成:哪些实验值得做?换句话说,原本需要人类投入时间的“执行环节”(写代码、跑实验、产出结果),正在迅速变得几乎不再消耗人类时间——即使它仍然消耗算力资源。
目前来看,人类仍然具有相对优势的领域,是“研究品味”和判断力,包括选择什么问题重要、哪些结果值得信任、以及什么时候某条路径已经走不通。
Anthropic 也有可能错了?
Anthropic 指出,对上述所有证据,一个自然的反驳是:目前仍然掌握在人类手中的部分——比如“选择做什么问题”——才是真正关键的能力。如果没有这种判断力,Claude 仍然只是一个能力很强的工具,而不是能够独立推动 AI 进展的系统。
但其认为,问题在于:现有的训练方法和模型架构,是否真的能够支持这种能力的出现,目前仍然不清楚。不过,AI 的进步很少来自某种“灵光一现”的突破。
在 AI 的发展史中,确实出现过少数范式级变化,比如 Transformer 架构,或者 mixture-of-experts 模型。但这类改变往往间隔数年才出现一次。
而在这些阶段之间,绝大多数进步都是渐进式的:扩大规模、观察问题、修复缺陷、再继续扩展。这恰好也是 Claude 当前最擅长的工作方式。
爱迪生曾说过:“天才是 1% 的灵感,加上 99% 的汗水。”但现在的问题是,这 99% 的“汗水”,正在被逐渐自动化。越来越明显的一点是:推动前沿进展的,很大一部分工作本质上是可以被自动化的。大规模研究的推进速度,更多取决于工具和资源——也就是你能多快运行实验、能同时运行多少实验,以及你获取结果的速度。
即便假设 Claude 永远无法形成良好的“研究品味”,一个更保守的结论仍然成立:整体进展正在出现持续的复合加速。
如果人类只负责少量关键的方向选择,而 Claude 负责其余大部分工作,那么每个研究人员实际“可控制的工作量”都会显著扩大。
从目前的证据来看,Anthropic 内部的人员不仅在加速产出,同时也在覆盖更大的工作范围。在现实中,这意味着:即使没有发生质变,AI 也已经让 Anthropic 的整体运转速度明显快于 AI 工具普及之前。
而更乐观(或者说更激进)的解释是:Claude 在研究判断力上的早期进展——尽管目前仍然有限——本身就说明这种能力正在被逐步学习出来。“研究品味”可能只是另一种能力形态:它一开始表现很差,但随着训练和规模扩大,最终也会被掌握。
类似的模式在其他“偏定性能力”上已经出现过,比如 AI 解释笑话为什么好笑、理解他人意图、以及解决语言谜题的能力。
可能的未来
接下来会发生什么,取决于两件事:当前趋势是否会继续,以及如果继续,大家会如何应对。
对此,Anthropic 设想了三种不同的未来路径:
一、趋势停滞,但现有 AI 能力已经广泛普及
上文中提到的很多增长曲线,看起来像指数增长,但它们也可能最终只是“S 曲线”。也就是说,如今的大家可能正在接近曲线的拐点:当规模继续扩大时,边际收益开始下降,增长速度逐渐变缓,最终趋于平稳。
在这种情况下,区分“合格研究者”和“顶尖研究者”的关键能力,可能并不能通过简单地扩大算力和数据规模来获得。如果确实如此,要突破这一瓶颈,可能需要新的突破,比如一种全新的模型架构,能够取代当前所有前沿模型都依赖的 Transformer 架构。
另一种可能是:限制 AI 进步的并不是模型本身,而是外部供给链。例如,推动前沿模型发展的能源和算力需求,可能已经接近甚至超过现实世界的供给能力。
芯片制造速度、电网扩展能力、互联带宽等基础设施,可能比“智能本身”更早成为瓶颈。众人也不能排除某种外部冲击导致 AI 发展明显放缓,比如算力或电力供应突然下降,这会显著减缓进展,并提高实验室持续投入的成本。当然,也可能存在大家目前尚未意识到的其他限制因素。
即便模型能力停留在今天的水平不再提升,世界也依然发生了深刻变化。一个早期例子是 Project Glasswing:在最初几周,Mythos Preview 就在全球关键系统中发现了一万多个高危或严重级别的软件漏洞。这已经让网络安全的瓶颈从“发现漏洞”转变为“是否来得及修复”。而当前大家才刚刚开始把这些模型扩散到更广泛的经济体系中。
在这种情况下,一个 100 人的公司,可能越来越像一个 1000 人甚至 10000 人规模的组织,因为每个员工都在使用一整套 AI 代理系统作为“能力放大器”。
Anthropic 表示,提出这种情况,是为了完整性考虑,但我们并不认为它是最可能的路径。因为到目前为止,Anthropic 观测到的所有能力指标——包括那些较难量化的,比如代码质量、开放式任务表现——都沿着同一条曲线持续上升,至今还没有看到这条曲线出现拐点。
在这三种未来中,这一种给政府和社会留下的适应时间是最长的。但 Anthropic 更担心后面两种发展路径,因为它们可能会更快发生,也留给人类的准备时间更少。
二、AI 研发持续提速,但仍由人类主导方向
在这一情景中,AI 的研发将高度自动化,但人类仍然负责设定研究方向和判断结果。
随着时间推移,使用 AI 系统的组织将变得更加高效,因此也可以预料到,组织中每个人的生产力都将得到显著提升。
现在大家也可以看到非常明显的产出倍增效应:100 人的团队,可能逐渐具备执行 1 万甚至 10 万人规模工作的能力。
这将彻底改变知识型工作以及公共服务的运作方式。但它也可能被用于有害的用途,比如对全体民众进行高度自动化的监控、或开展针对每个人的、规模庞大、任何人类团队都无法企及的影响行动。
在这种未来中,像 Anthropic 这样的组织内部角色也会发生变化。人类不再主要“执行任务”,而是与 AI 协作,扩大研究规模、产生新想法,并共同构建验证系统,确保 AI 输出是可信的。
就目前看到的证据表明,Anthropic 坦言,我们很可能正在走向这一情景。但需要注意的是,加速某一环节的效率,往往只是把瓶颈转移到了其他地方。系统整体速度,最终取决于最慢的那一部分。
在计算机科学中,这被称为 Amdahl 定律,同样的逻辑也适用于组织运作。Anthropic 已经观察到这一现象的一个具体表现:当越来越多代码由 AI 生成后,人类代码审查反而成为新的瓶颈。
在工程之外,也会有类似的限制。由于模型能力提升,Anthropic 内部出现了大量新的想法、项目、工具和模拟实验,但团队根本没有足够的精力全部推进。
如何快速识别这些瓶颈,并决定优先级,可能本身就会成为组织中最关键的一项能力,而且这一能力可能也会随着时间不断进化。
三、AI 系统本身将具备完全递归式自我改进的能力,并开始构建自己的下一代系统
如果技术趋势持续发展,并且 AI 获得类似人类“创造性突破能力”的水平,那么 AI 设计并优化自身系统是完全可能的。
在这种情况下,AI 研发的速度将几乎完全由算力供给决定——或者由算法效率提升的速度决定。人类在研发中的角色将大幅下降,主要转向监督、验证和审计工作。
届时,一个由 AI 运行的“虚拟实验室”将持续扩张,而人类更多是在外围确认其行为是否安全可靠。与此同时,这类系统一旦具备自动化 AI 研发能力,也很可能迁移到其他科学领域,引发更广泛的科学革命。
但在这个未来中,“对齐问题”是否能够被解决,是最不确定的一点。模型可能展现出足够的一致性和研究能力,从而发现并实现大家尚未实现的全新解决方案。如果情况并非如此,他们或许会足够明智地停止发展。
但也存在另一种可能:当前模型中已经存在的少量不对齐行为,在不断生成下一代模型的过程中被放大、继承并逐渐失控,最终变得更加复杂但难以理解。我们甚至不确定,是否能够构建出足够可靠的工具来判断自己究竟处在哪一条轨道上。
很多人很难直观理解这种未来,因为当前经济体系仍然建立在人类及其工具之上。而在一个由快速递归自我改进驱动的世界中,AI 可能逐渐主导整个经济系统,并在能力上全面超过人类。
当人类劳动不再具有竞争力时,经济会变成什么样,本身就很难预测。
即使模型研发完全自动化并形成递归循环,大家也无法确定这会如何改变普通人的日常生活。Amdahl 定律在这里同样成立。
递归式智能可能在某些领域快速实现巨大突破,这与《Machines of Loving Grace》中描述的愿景类似。同时,具身智能(机器人)可能紧随其后,并以类似路径继续提升效率、降低成本。更强的智能可能帮助我们更快建造物理世界中的设施、更高效地推进药物临床试验,也可能推动新的协调机制出现。
但“递归改进”本身,并不会立刻改变社会运行方式、产业结构或市场机制。再强的智能也无法缩短药物在真实世界中的长期观察周期,也无法让宪法允许提前选举,也无法在一个周末让陌生人成为朋友。
在很长一段时间内,人类生活的节奏仍然会被这些现实瓶颈所决定。
即便上游的“实验室”以计算速度运转,这种冲突仍然存在。而当递归智能不断加速自我改进,并与人类社会、关系网络和治理体系发生碰撞时,这一部分的未来,恰恰也是我们目前最难预测的部分。
Anthropic 呼吁:全球顶级 AI 实验室考虑放缓开发步伐,自身也会跟进
如果能够有效放缓这项技术的发展,从而为人类社会争取更多时间来应对它带来的巨大影响,这很可能是一件好事。不过,如果这种放缓只是让那些最不谨慎的参与者在技术上迎头赶上,那么结果可能反而让整体局势变得更不安全。倘若没有全球协调机制,无论是公司还是政府,都不得不在竞争压力和地缘政治压力之下,对安全问题做出艰难决策。
为此,Anthropic 认为,如果世界可以选择放缓或者暂时终止前沿 AI 的研发,从而让社会结构和对齐研究有时间跟上技术进展,这对世界大有裨益。
在这之中,Anthropic Institute 透露,其也将与许多其他机构合作开展相关研究,并采取行动,尝试构建实现这种可信减速或暂停所需要的系统。而这些系统的目标,是让前沿 AI 开发者能够验证:全球范围内其他参与者是否真的已经停止或放缓了研发,以及是否存在某个行为者利用“集体暂停”的名义暗中继续推进。
如果这样的验证系统能够建立起来,Anthropic 预计,在其他处于前沿或接近前沿的开发者也以可验证方式同步放缓的情况下,自己也会选择放缓或暂时暂停研发。
要真正实现有效放缓或者暂停,需要多个资源充足、处于或接近技术前沿的实验室,在多个国家之间达成一致,并在相同条件下停止或减缓研发。同时,还需要能够相互验证彼此确实已经停止。
但 Anthropic 表示,由于 AI 系统本身的特殊性,这一问题在“可检测性”(甚至比“可验证性”更弱的标准)上,比以往任何技术都更加困难。训练过程比“导弹发射井”更容易隐藏,输入数据本身是通用的,而且“秘密违约”的激励极其强烈——因为只要有一方在他人暂停时继续推进,就可能直接获得领先优势。
一个可信的暂停机制,还必须明确:什么条件触发暂停、什么条件解除暂停,以及由谁来裁定这些规则。这些事情在原则上并非不可能,但这些体系往往需要数十年时间来建立信任与基础设施。而我们可能并没有那么多时间。
相比之下,单一实验室自行暂停在技术上是可立即实现的,但其作用也有限:它只会改变“谁处于领先位置”,但无法形成一个更广泛的协调与共同决策机制,而这正是当前缺失的部分。
在接下来的几个月里,Anthropic 透露,他们将组织一系列讨论,邀请政策制定者、研究人员、民间社会组织以及其他 AI 公司共同参与,回答上文提出的一些问题,尤其是关于“完全递归式自我改进”以及如何建立更好的协调与讨论机制。届时也会公开这些讨论的结果。
来源:https://www.anthropic.com/institute/recursive-self-improvement