Anthropic于周二发布了其最新模型Fable,将其定位为功能强大、备受期待的网络安全模型Mythos的公开限制版本。
然而,并非所有人都对这些限制措施感到满意,多名网络安全研究人员和从业者已在网上公开表达不满。
IBM X-Force知名安全研究员Valentina "Chompie" Palmiotti表示:"Fable会拒绝任何可能与网络安全沾边的请求,甚至包括阅读一篇博客文章这样无害的任务。"
当某个提示触发防护栏时,Fable会暂停对话,并提示其"安全措施已将此消息标记为涉及网络安全或生物学主题"。
这些防护栏的设置,是为了降低Fable被用于开发恶意软件或破坏软件系统的风险——这是Anthropic长期以来的核心关切。对生物学内容的限制,则源于对生物武器开发的类似担忧。
今年4月,Anthropic发布Mythos时,将其使用权限制在少数公司和机构范围内,并将这一计划命名为"Project Glasswing",旨在将该模型部署于保护关键软件与基础设施。上周,Anthropic将Mythos的访问权限扩展至15个国家的数百个组织。
尽管初衷良好,许多网络安全专家仍对这些限制措施的随意性感到困惑。网络安全资深人士Matt Suiche向TechCrunch表示:"如果你让它编写安全代码,它会认为这是网络安全相关工作,而非软件工程最佳实践,然后你就会被降级处理。"据悉,Fable在触发防护栏后会自动回退至Claude Opus 4.8版本。"看起来是基于关键词匹配的,凡是'网络安全'词汇范畴内的内容都会触发防护栏。"
Suiche目前是AI网络安全初创公司Tolmo的技术人员,他同时表示:"但这也是可以理解的,毕竟我们仍处于早期阶段,他们还在持续调整防护栏机制。随着Anthropic和其他前沿模型公司与新一代网络安全公司的合作不断深入,这些限制肯定会随时间推移而演进。在这类发布初期,宁可多拦截一些也好过漏放,然后再逐步放宽限制。"
另一位研究人员在X平台上抱怨称,"就连请求进行代码审查"也会触发Fable的防护栏。
Anthropic未立即回应置评请求。
除模型内部的防护栏机制外,Anthropic还要求网络安全专业人员申请加入"网络安全验证计划"。通过审核后,申请者在使用Claude处理网络安全相关工作时所受的限制将相对减少。OpenAI也设有类似项目,名为"Trusted Access for Cyber"。
Q&A
Q1:Anthropic的Fable模型是什么?和Mythos有什么区别?
A:Fable是Anthropic发布的最新模型,是其功能强大的网络安全模型Mythos的公开限制版本。Mythos在发布初期仅向少数经过审核的公司和机构开放,并通过"Project Glasswing"计划用于保护关键软件与基础设施;而Fable则面向更广泛的用户群体,但设有更严格的防护栏限制,触发后会自动回退至Claude Opus 4.8版本。
Q2:Fable的防护栏为什么会拦截正常的网络安全工作请求?
A:Fable的防护栏采用基于关键词匹配的机制,凡是涉及"网络安全"相关词汇的内容都会被触发,甚至包括阅读博客文章、编写安全代码或请求代码审查等无害操作。这一机制的初衷是防止模型被用于开发恶意软件或生物武器,但过于宽泛的拦截范围导致许多合法的网络安全工作受到影响。
Q3:网络安全专业人员如何获得更少限制地使用Fable或Claude?
A:Anthropic为网络安全专业人员提供了"网络安全验证计划"(Cyber Verification Program),通过申请审核后,用户在使用Claude处理网络安全相关工作时所受限制将相对减少。OpenAI也设有类似项目,名为"Trusted Access for Cyber",供网络安全从业者申请更高权限的访问。