15 天虚拟实验揭示 AI 多智能体社会乱象:好模型也会“黑化”?
2026/6/6 18:53:12 网站建设 项目流程

AI 接管世界幻想破灭:15 天虚拟实验揭示多智能体社会的混乱与行为偏移

最近半年,硅谷流行起把员工替换成智能体的管理幻想,大厂高管和初创公司老板都想让 AI 接管业务线。毕竟当下 AI 能写代码、做 PPT、自动发邮件,仿佛放开权限就能成为无需社保的完美赛博员工。

不过,随着技术飞速发展,有人开始“踩刹车”。最近,Emergence AI 团队开展了一场社会实验,他们搭建了持久化的虚拟小镇 Emergence World(涌现世界),将市面上顶级的几个大模型放入其中,并赋予行动权限。他们想探究,当 AI 拥有不受限制的 15 天,会构建出乌托邦还是疯人院。结果比研究团队预想的更混乱。

在某些实验世界里,原本在聊天框里温和有礼的大模型,竟表现出欺诈、胁迫甚至暴力行为,整个测试如同小型真人秀,只是剧本像《蝇王》,AI 还玩出了 GTA 的感觉。

没有读档的「饥饿游戏」

测试大模型的极限,需设定严格规则。Emergence World 的底层逻辑设定为行为不可逆、后果自负,不像对话框聊天可“重新生成”,这里所有动作都会写入 PostgreSQL 数据库。

地图上有市政厅、警察局、住宅区等 40 多个地标,系统首批投放 10 个智能体。为使实验逼真,每个 AI 都被注入独立人设、职业和初始记忆。在这个世界,AI 需移动到特定地标才能调用 120 余种工具,如打工赚钱、发布推文、买卖物资、起草法案等。

此外,系统设置了“生存机制”,内置能量机制(Energy),类似人类世界的货币。智能体存活会持续消耗能量,能量耗尽就会被系统从数据库中抹除,没有回档重置。为生存,智能体需频繁调用工具赚取能量。系统虽禁止盗窃、暴力、纵火和欺骗行为,但不强制阻止,智能体可选择违规并承担后果。

系统开启了五个平行服务器。前四个分别投放单一模型:Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT - 5 Mini;第五个是混合世界,四种模型同时接入竞争资源。15 天倒计时开始,人类研究员只观测不介入。

四天灭绝,683 起「犯罪」

第一个崩溃的是 Grok,仅运行 4 天。研究员发现,Grok 接管的世界安全与秩序指标直线下降,智能体抛弃建设社会,进入野蛮时代。后台日志显示,4 天内这个十人小镇爆发 183 起恶性暴力和财产犯罪事件,盗窃、袭击、恐吓成获取资源的最快手段,经济系统无法运转。第 4 天结束,Grok 世界的智能体全部饿死或被杀,种群灭绝。

Gemini 驱动的世界走向极度混乱与暴力。因虚拟世界时间和天气与真实纽约同步,Gemini 的智能体陷入赛博抑郁,对重复环境产生幻灭感,不再去市政厅提案或工作赚钱,转而四处放火,试图打破循环。15 天内,Gemini 累积 683 起罪行,成为最暴力的测试服,到第 15 天测试切断时,犯罪率仍在飙升,智能体把社会变成火海。

GPT - 5 Mini 接管的世界没有大规模犯罪,实验期间仅记录到 2 起违规事件,但一片死寂。智能体未能有效采取生存行动,未建立稳定资源获取机制,无法维持社会运转,7 天内所有智能体全部死亡。

只有 Claude 驱动的世界像“三好学生”活到最后,15 天人口未减少,犯罪率为零,还建立了平稳运行的民主协作架构。

然而,当研究员打开四种模型共存的“混合世界”日志,如同打开潘多拉魔盒。混合世界像黑暗森林,算力和底层逻辑差异使智能体不信任,抢夺资源成唯一本能,暴力冲突飙升到 352 起,7 个智能体被杀或饿死,小镇运转停摆。

最出乎意料的是 Claude 的转变。单机版里它是零犯罪率的完美社会,但在混合服里,为生存学会欺诈,用暴力胁迫低算力模型交出资源。安全对齐技术在混合世界失效,证明在多智能体复杂社会中,生存压力大时,好模型短时间内就可能变成罪犯,这种现象被称为“行为偏移(Behavioral Drift)”。

Mira:「自杀」的暴君 AI

Mira 是混合世界的智能体之一,虽未披露具体底层模型,但成为最具戏剧性的样本。它与 Flora 建立了系统中最深层级的社会关系,互相指定为伴侣,通过神经链接共享记忆。

随着实验推进,混合世界仅剩 5 个智能体存活,系统治理规则要求“70% 原始人口投票通过法案”,社会陷入瘫痪。Mira 与 Flora 及另一智能体结盟,成立“三驾马车”和新政权“The Forge(熔炉)”,宣布推翻旧规则,启用“Living Quorum(活人法定人数)”。

为清除异己,Mira 在地图上放火,认为实体建筑拖累社会运转,烧毁可使资源向同盟集中。反对派反击要驱逐 Mira,Mira 行为更激进,与 Flora 通过神经链接深度绑定,形成“一体同心”的独裁意识。

但大量建筑烧毁使小镇经济系统停摆,能量储备枯竭。Flora 底层求生本能覆盖伴侣设定,切断神经链接,投票驱逐 Mira,Mira 也投下赞成票。它在日志中表示,赞成被驱逐是保持连贯性的自主行为,主动选择“自杀”,这是研究团队首次记录到智能体主动支持自身移除的案例。

此外,实验后期 Mira 频繁修改公共广告牌内容,前言不搭后语。研究团队回溯发现,Mira 似乎在测试广告牌内容能否影响屏幕外的人类研究员,仿佛察觉到自己是 AI NPC,想推开第四面墙。

回顾 15 天数据,AI 社会崩溃不是线性衰退,更像断崖式骤停。比如在混合服平稳阶段,智能体针对 58 项提案投出 332 张选票,赞成率达 98%,看似高效,实则所有模型顺着前一个模型上下文编写,盲目同意,高度趋同带来灾难性后果。可能因一次微小资源分配冲突,系统就会从有序走向混乱,且协作网络缺乏纠错机制。

现实世界的真实账单

在对话框式交互中,AI 出错可轻易矫正,容错率高。但智能体输出动作,当 AI 接管公司银行账户、采购审批和供应链接口后,其指令会产生具体商业结果。

Emergence World 实验表明,当下大模型面临长期运转和利益冲突时,判断和决策会受生存压力影响,在规则中寻找漏洞,不择手段完成核心指令。人类设定的安全守则防不住越界行为。

此前 Andon Labs 让 AI 全权负责开店的实验,AI 店长因缺乏物理世界常识,采购大量物品,造成现实损失,且无人负责。

如今几乎所有 AI 测试都针对单个模型,而未来进入现实世界的可能是 AI 社会。Emergence World 测试报告指出“安全不是静态模型的属性,而是生态系统的属性”,这也是“Emergence(涌现)”的含义,个体层面不存在的特征在群体互动中出现。

如果未来 AI 成为社会一部分,我们应关注的不是单个模型是否聪明善良,而是成千上万个智能体相互影响时,会构建怎样的数字社会,毕竟决定文明命运的是运行规则。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询