Anthropic网络安全模型Fable防护栏限制过严，研究人员纷纷抱怨-二趣网

Anthropic于周二发布了其最新模型Fable，将其定位为功能强大、备受期待的网络安全模型Mythos的公开限制版本。

然而，并非所有人都对这些限制措施感到满意，多名网络安全研究人员和从业者已在网上公开表达不满。

IBM X-Force知名安全研究员Valentina "Chompie" Palmiotti表示："Fable会拒绝任何可能与网络安全沾边的请求，甚至包括阅读一篇博客文章这样无害的任务。"

当某个提示触发防护栏时，Fable会暂停对话，并提示其"安全措施已将此消息标记为涉及网络安全或生物学主题"。

这些防护栏的设置，是为了降低Fable被用于开发恶意软件或破坏软件系统的风险——这是Anthropic长期以来的核心关切。对生物学内容的限制，则源于对生物武器开发的类似担忧。

今年4月，Anthropic发布Mythos时，将其使用权限制在少数公司和机构范围内，并将这一计划命名为"Project Glasswing"，旨在将该模型部署于保护关键软件与基础设施。上周，Anthropic将Mythos的访问权限扩展至15个国家的数百个组织。

尽管初衷良好，许多网络安全专家仍对这些限制措施的随意性感到困惑。网络安全资深人士Matt Suiche向TechCrunch表示："如果你让它编写安全代码，它会认为这是网络安全相关工作，而非软件工程最佳实践，然后你就会被降级处理。"据悉，Fable在触发防护栏后会自动回退至Claude Opus 4.8版本。"看起来是基于关键词匹配的，凡是'网络安全'词汇范畴内的内容都会触发防护栏。"

Suiche目前是AI网络安全初创公司Tolmo的技术人员，他同时表示："但这也是可以理解的，毕竟我们仍处于早期阶段，他们还在持续调整防护栏机制。随着Anthropic和其他前沿模型公司与新一代网络安全公司的合作不断深入，这些限制肯定会随时间推移而演进。在这类发布初期，宁可多拦截一些也好过漏放，然后再逐步放宽限制。"

另一位研究人员在X平台上抱怨称，"就连请求进行代码审查"也会触发Fable的防护栏。

Anthropic未立即回应置评请求。

除模型内部的防护栏机制外，Anthropic还要求网络安全专业人员申请加入"网络安全验证计划"。通过审核后，申请者在使用Claude处理网络安全相关工作时所受的限制将相对减少。OpenAI也设有类似项目，名为"Trusted Access for Cyber"。

Q&A

Q1：Anthropic的Fable模型是什么？和Mythos有什么区别？

A：Fable是Anthropic发布的最新模型，是其功能强大的网络安全模型Mythos的公开限制版本。Mythos在发布初期仅向少数经过审核的公司和机构开放，并通过"Project Glasswing"计划用于保护关键软件与基础设施；而Fable则面向更广泛的用户群体，但设有更严格的防护栏限制，触发后会自动回退至Claude Opus 4.8版本。

Q2：Fable的防护栏为什么会拦截正常的网络安全工作请求？

A：Fable的防护栏采用基于关键词匹配的机制，凡是涉及"网络安全"相关词汇的内容都会被触发，甚至包括阅读博客文章、编写安全代码或请求代码审查等无害操作。这一机制的初衷是防止模型被用于开发恶意软件或生物武器，但过于宽泛的拦截范围导致许多合法的网络安全工作受到影响。

Q3：网络安全专业人员如何获得更少限制地使用Fable或Claude？

A：Anthropic为网络安全专业人员提供了"网络安全验证计划"（Cyber Verification Program），通过申请审核后，用户在使用Claude处理网络安全相关工作时所受限制将相对减少。OpenAI也设有类似项目，名为"Trusted Access for Cyber"，供网络安全从业者申请更高权限的访问。

企业官网建设流程全解析

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

热门文章

文章分类

标签云

相关文章

Python之wall-e包语法、参数和实际应用案例

STM32 TIM控制器

MuleSoft+LLM企业级AI编排：可审计、可治理、可回滚的智能服务集成

需要专业的网站建设服务？