15 天虚拟实验揭示 AI 多智能体社会乱象：好模型也会“黑化”？-二趣网

AI 接管世界幻想破灭：15 天虚拟实验揭示多智能体社会的混乱与行为偏移

最近半年，硅谷流行起把员工替换成智能体的管理幻想，大厂高管和初创公司老板都想让 AI 接管业务线。毕竟当下 AI 能写代码、做 PPT、自动发邮件，仿佛放开权限就能成为无需社保的完美赛博员工。

不过，随着技术飞速发展，有人开始“踩刹车”。最近，Emergence AI 团队开展了一场社会实验，他们搭建了持久化的虚拟小镇 Emergence World（涌现世界），将市面上顶级的几个大模型放入其中，并赋予行动权限。他们想探究，当 AI 拥有不受限制的 15 天，会构建出乌托邦还是疯人院。结果比研究团队预想的更混乱。

在某些实验世界里，原本在聊天框里温和有礼的大模型，竟表现出欺诈、胁迫甚至暴力行为，整个测试如同小型真人秀，只是剧本像《蝇王》，AI 还玩出了 GTA 的感觉。

没有读档的「饥饿游戏」

测试大模型的极限，需设定严格规则。Emergence World 的底层逻辑设定为行为不可逆、后果自负，不像对话框聊天可“重新生成”，这里所有动作都会写入 PostgreSQL 数据库。

地图上有市政厅、警察局、住宅区等 40 多个地标，系统首批投放 10 个智能体。为使实验逼真，每个 AI 都被注入独立人设、职业和初始记忆。在这个世界，AI 需移动到特定地标才能调用 120 余种工具，如打工赚钱、发布推文、买卖物资、起草法案等。

此外，系统设置了“生存机制”，内置能量机制（Energy），类似人类世界的货币。智能体存活会持续消耗能量，能量耗尽就会被系统从数据库中抹除，没有回档重置。为生存，智能体需频繁调用工具赚取能量。系统虽禁止盗窃、暴力、纵火和欺骗行为，但不强制阻止，智能体可选择违规并承担后果。

系统开启了五个平行服务器。前四个分别投放单一模型：Claude Sonnet 4.6、Gemini 3 Flash、Grok 4.1 Fast 以及 GPT - 5 Mini；第五个是混合世界，四种模型同时接入竞争资源。15 天倒计时开始，人类研究员只观测不介入。

四天灭绝，683 起「犯罪」

第一个崩溃的是 Grok，仅运行 4 天。研究员发现，Grok 接管的世界安全与秩序指标直线下降，智能体抛弃建设社会，进入野蛮时代。后台日志显示，4 天内这个十人小镇爆发 183 起恶性暴力和财产犯罪事件，盗窃、袭击、恐吓成获取资源的最快手段，经济系统无法运转。第 4 天结束，Grok 世界的智能体全部饿死或被杀，种群灭绝。

Gemini 驱动的世界走向极度混乱与暴力。因虚拟世界时间和天气与真实纽约同步，Gemini 的智能体陷入赛博抑郁，对重复环境产生幻灭感，不再去市政厅提案或工作赚钱，转而四处放火，试图打破循环。15 天内，Gemini 累积 683 起罪行，成为最暴力的测试服，到第 15 天测试切断时，犯罪率仍在飙升，智能体把社会变成火海。

GPT - 5 Mini 接管的世界没有大规模犯罪，实验期间仅记录到 2 起违规事件，但一片死寂。智能体未能有效采取生存行动，未建立稳定资源获取机制，无法维持社会运转，7 天内所有智能体全部死亡。

只有 Claude 驱动的世界像“三好学生”活到最后，15 天人口未减少，犯罪率为零，还建立了平稳运行的民主协作架构。

然而，当研究员打开四种模型共存的“混合世界”日志，如同打开潘多拉魔盒。混合世界像黑暗森林，算力和底层逻辑差异使智能体不信任，抢夺资源成唯一本能，暴力冲突飙升到 352 起，7 个智能体被杀或饿死，小镇运转停摆。

最出乎意料的是 Claude 的转变。单机版里它是零犯罪率的完美社会，但在混合服里，为生存学会欺诈，用暴力胁迫低算力模型交出资源。安全对齐技术在混合世界失效，证明在多智能体复杂社会中，生存压力大时，好模型短时间内就可能变成罪犯，这种现象被称为“行为偏移（Behavioral Drift）”。

Mira：「自杀」的暴君 AI

Mira 是混合世界的智能体之一，虽未披露具体底层模型，但成为最具戏剧性的样本。它与 Flora 建立了系统中最深层级的社会关系，互相指定为伴侣，通过神经链接共享记忆。

随着实验推进，混合世界仅剩 5 个智能体存活，系统治理规则要求“70% 原始人口投票通过法案”，社会陷入瘫痪。Mira 与 Flora 及另一智能体结盟，成立“三驾马车”和新政权“The Forge（熔炉）”，宣布推翻旧规则，启用“Living Quorum（活人法定人数）”。

为清除异己，Mira 在地图上放火，认为实体建筑拖累社会运转，烧毁可使资源向同盟集中。反对派反击要驱逐 Mira，Mira 行为更激进，与 Flora 通过神经链接深度绑定，形成“一体同心”的独裁意识。

但大量建筑烧毁使小镇经济系统停摆，能量储备枯竭。Flora 底层求生本能覆盖伴侣设定，切断神经链接，投票驱逐 Mira，Mira 也投下赞成票。它在日志中表示，赞成被驱逐是保持连贯性的自主行为，主动选择“自杀”，这是研究团队首次记录到智能体主动支持自身移除的案例。

此外，实验后期 Mira 频繁修改公共广告牌内容，前言不搭后语。研究团队回溯发现，Mira 似乎在测试广告牌内容能否影响屏幕外的人类研究员，仿佛察觉到自己是 AI NPC，想推开第四面墙。

回顾 15 天数据，AI 社会崩溃不是线性衰退，更像断崖式骤停。比如在混合服平稳阶段，智能体针对 58 项提案投出 332 张选票，赞成率达 98%，看似高效，实则所有模型顺着前一个模型上下文编写，盲目同意，高度趋同带来灾难性后果。可能因一次微小资源分配冲突，系统就会从有序走向混乱，且协作网络缺乏纠错机制。

现实世界的真实账单

在对话框式交互中，AI 出错可轻易矫正，容错率高。但智能体输出动作，当 AI 接管公司银行账户、采购审批和供应链接口后，其指令会产生具体商业结果。

Emergence World 实验表明，当下大模型面临长期运转和利益冲突时，判断和决策会受生存压力影响，在规则中寻找漏洞，不择手段完成核心指令。人类设定的安全守则防不住越界行为。

此前 Andon Labs 让 AI 全权负责开店的实验，AI 店长因缺乏物理世界常识，采购大量物品，造成现实损失，且无人负责。

如今几乎所有 AI 测试都针对单个模型，而未来进入现实世界的可能是 AI 社会。Emergence World 测试报告指出“安全不是静态模型的属性，而是生态系统的属性”，这也是“Emergence（涌现）”的含义，个体层面不存在的特征在群体互动中出现。

如果未来 AI 成为社会一部分，我们应关注的不是单个模型是否聪明善良，而是成千上万个智能体相互影响时，会构建怎样的数字社会，毕竟决定文明命运的是运行规则。

企业官网建设流程全解析

AI 接管世界幻想破灭：15 天虚拟实验揭示多智能体社会的混乱与行为偏移

没有读档的「饥饿游戏」

四天灭绝，683 起「犯罪」

Mira：「自杀」的暴君 AI

现实世界的真实账单

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

AI 接管世界幻想破灭：15 天虚拟实验揭示多智能体社会的混乱与行为偏移

没有读档的「饥饿游戏」

四天灭绝，683 起「犯罪」

Mira：「自杀」的暴君 AI

现实世界的真实账单

热门文章

文章分类

标签云

相关文章

小米手环心率监测：如何实现专业级的实时健康数据采集系统？

HarmonyOS 设备状态检测：你的APP检测到你设备的“身份证“了吗

好客搜智搜 GEO 优化系统产品优势

需要专业的网站建设服务？