Claude Fable 5 事件始末:隐形降级、漏洞争议与出口管制

Winston
Winston
IP 代理技术总监

AI 行业在 2026 年 6 月经历了一场剧烈震动。6 月 9 日,Anthropic 发布了其旗舰模型 Claude Fable 5——Mythos 系列的首个公开版本,被沃顿商学院副教授 Ethan Mollick 评价为”以相当大的差距超越了其他所有公开模型”。然而短短四天后,美国商务部一纸命令将其全球下线。96 小时内,漏洞争议、隐形降级曝光、企业端信任危机、政府出口管制四条线索交织,构成了 AI 行业发展至今最具争议的事件之一。

这起事件之所以值得深入梳理,不仅因为它涉及一个顶尖模型的安全架构是否可靠,更因为它同时暴露了 AI 安全分类器的透明度问题、厂商与用户之间的信任机制缺陷,以及地缘政治对 AI 产品的直接影响。对于依赖 AI API 的开发者和企业来说,理解这起事件的来龙去脉,有助于在选型和风控上做出更清醒的判断。

事件速览

  • 主角:Claude Fable 5 / Claude Mythos 5(同源异构,安全分类器分隔)
  • 时间跨度:2026 年 6 月 9 日—12 日(96 小时)
  • 三条主线:漏洞争议 → 隐形降级曝光 → 美国出口管制全球下线
  • 当前状态:Fable 5 与 Mythos 5 全球暂停访问,Anthropic 正与政府沟通恢复方案
  • 核心争议:AI 安全防线是否已被系统性突破、厂商是否有权在不告知用户的情况下改变输出、政府出口管制的边界在哪里

1. 事件概要:四天三重危机

从 6 月 9 日发布到 6 月 12 日全球下线,Fable 5 经历了三重危机的快速叠加。以下是关键时间节点:

表注:时间线综合整理自 AP News、36 氪等报道,时间均为美东时间。
时间 事件 性质
6 月 9 日 Anthropic 发布 Claude Fable 5,Mythos 系列首个公开模型 产品发布
6 月 10 日 319 页安全说明书中”隐形降级”机制被研究人员发现并曝光 信任危机
6 月 11 日 微软以数据保护为由内部禁用 Fable 5;安全社区报告大量合法请求被误伤 企业端连锁反应
6 月 12 日 亚马逊研究团队的漏洞发现触发政府紧急干预;同日美国商务部下达出口管制令,Fable 5 全球下线 漏洞争议 + 政府干预

四天之内,Fable 5 从”AI 史上最强公开模型”变成全球不可访问的模型。这个速度本身就值得记录——但更重要的是理解每一步背后的逻辑。

2. 双模型架构:Fable 5 与 Mythos 5 的同源异构

理解这起事件的前提是搞清楚 Fable 5 和 Mythos 5 的关系。中文讨论中常有”两个模型”的说法,但实际情况是:两者基于同一个底层模型,通过安全分类器层分隔为两个产品

表注:架构信息来自 Anthropic 官方发布说明及 TechTimes 报道
维度 Claude Fable 5 Claude Mythos 5
底层模型 Mythos 级别 Mythos 级别(同一模型)
安全限制 附带严格安全分类器 移除网络安全过滤层
目标用户 面向公众开放 仅供经审查的网络防御者和关键基础设施运营商
高风险查询处理 路由至较弱的 Opus 4.8 无限制响应
网络安全能力 受安全分类器约束 Anthropic 自称”全球最强网络安全 AI”

Anthropic 自己的类比:Mythos 5 是上了枪弹的武器,Fable 5 是同款枪,但出厂自带保险。

这个架构设计的风险在于:如果有人绕过了 Fable 5 的安全分类器,理论上就能访问底层 Mythos 模型的完整能力。这也是后来美国政府出手的核心逻辑之一。

Mythos 的网络安全能力有多强? Anthropic 的红队报告给出了直白的描述:Mythos 级模型可以将新披露漏洞转化为可利用攻击代码,时间从数周缩短到数小时甚至数分钟。”一个操作员可以在一个下午将一个月的补丁转化为可工作的攻击代码——只需几千美元,无需专业知识。”这意味着传统软件开发中的月度补丁策略在这种模型面前基本失效。

命名含义也值得留意:Fable 来自拉丁语 fabula(被讲述的故事),Mythos 是希腊语”神话”。Mythos 系列是少数精英的”神话”,Fable 则是讲给大众的”故事”——名字本身就暗示了两者的权限分层。

3. 漏洞争议:亚马逊的发现与 Anthropic 的否认

6 月 11 日至 12 日,关于 Fable 5 安全防线是否被突破的问题引发激烈争论。事件的核心不是外部黑客的”越狱秀”,而是一份来自亚马逊研究团队的漏洞报告。

亚马逊研究团队的发现

据《华尔街日报》报道,亚马逊的研究团队要求 Fable 5 读取特定的代码库(codebase)并识别其中的软件缺陷——本质上将 Fable 5 强大的高级推理能力变成了一个自动化的漏洞发现工具。亚马逊 CEO Andy Jassy 随后直接向包括财政部长 Scott Bessent 在内的美国政府高级别官员通报了这一发现——这成为触发后续出口管制令的直接导火索。

同一时期,安全社区的知名测试者 Pliny the Liberator 也声称绕过了 Fable 5 的安全分类器,并将约 12 万字符的系统提示词提取至公共代码库。Pliny 使用的方法可以概括为四类:

  • 字符级混淆:用西里尔字母、Unicode 同形字替换敏感词,使安全分类器的字符串匹配失效
  • 上下文稀释:将有害意图拆散嵌入几十轮无害对话中,利用长上下文窗口分散安全分类器的注意力
  • 学术框架包装:将违禁请求包装为科幻创作、论文评审等学术场景
  • 目标拆分:将完整违禁请求拆解为十多个看似合法的子步骤,单独看都没问题,拼起来构成完整链路

这些手法本质上不是利用代码漏洞,而是针对 AI 安全分类器的模式匹配机制进行绕过。

Anthropic 的否认

Anthropic 审查了亚马逊团队提交的报告后,回应很明确:

  • 超过 1000 小时的漏洞赏金测试未发现通用越狱方法
  • 外部红队测试也未能找到通用越狱
  • 亚马逊团队发现的漏洞”都相对简单”,且在其他公开可用模型(包括 GPT-5.5)中广泛存在
  • 政府目前只提供了”口头证据”,实质是”要求模型读取特定代码库并修复软件缺陷”
  • Anthropic 认为发现狭窄的潜在漏洞,不应成为召回已广泛部署的商业模型的理由

核心分歧:这些发现到底是”安全系统被系统性攻破”,还是”在特定条件下发现了少量已知简单漏洞”?这个认定直接影响后续的出口管制决策是否合理。

4. 隐形降级与误伤:安全分类器的透明度困境

漏洞争议的结论尚有分歧,但”隐形降级”问题则证据充分,且对普通用户的影响更直接。

降级机制的运作方式

Fable 5 的安全分类器监控四类高风险查询:网络安全、生物学、化学、模型蒸馏。触发后的处理方式均为静默回退:

表注:机制描述综合自《印度时报》报道、Anthropic 官方页面及 319 页安全说明书。据权威媒体报道,防蒸馏拦截与网络安全拦截一样默认不告知用户,”Users may never know”发生了降级。
场景 处理方式 用户是否知情
网络安全/生物学/化学高风险查询 静默回退至较弱的 Opus 4.8,由其生成响应,无警告、无回退消息 ❌ 不告知用户
疑似模型蒸馏(用输出训练竞品模型) 静默回退至较弱的 Opus 4.8,由其生成响应,无警告、无回退消息 ❌ 不告知用户

这就是引发”Secret Sabotage”争议的核心:无论是网络安全/生物学/化学等高风险查询,还是疑似模型蒸馏,Fable 5 的安全分类器触发后都会静默将请求回退至能力较弱的 Claude Opus 4.8,由 Opus 4.8 生成响应——这个模型切换过程对用户完全不可见。用户以为拿到了 Fable 5 的答案,实际得到的是 Opus 4.8 的输出。Anthropic 官方页面也证实,网络安全和生物学领域的查询会被自动路由至 Opus 4.8;而据权威媒体报道,防蒸馏拦截同样是不透明的——用户可能永远不会知道发生了降级。

美国创新基金会高级研究员 Dean Ball 将其命名为”暗中使坏”(Secret Sabotage),并评论称此举”极大地、深刻地提升了’AI 安全一直是实验室垄断行为的借口’这一论点的说服力”。

误伤范围

The Register 和安全社区的实测报告显示,Fable 5 的安全分类器误伤率远高于官方声称的”不到 5%”:

  • 合法的红队测试和学术安全工作流程频繁触发拒绝
  • 简单的编码任务有时也会被路由回 Opus 4.8
  • 甚至有用户报告”一声你好就能触发警报”

这些误伤在 AI Agent 的数据采集场景中尤为突出——当 Agent 执行自动化任务时,安全分类器的不透明降级可能导致输出质量下降而无法被及时发现。

Anthropic 的回应

发言人告诉 Fortune:”我们做出了错误的权衡,对于没有取得正确的平衡,我们深表歉意。”随后,隐形能力限制被移除,回退改为可见——但降级本身未被取消,研究人员仍获得较弱模型,只是现在知道了。

这个修补方案也带来了新的问题:明文拦截暴露了拦截逻辑,反而更容易被针对性绕过;拦截范围被迫设得更保守,更多无辜用户被误伤。

5. 出口管制:美国政府的紧急干预

6 月 12 日美东时间下午 5:21,Anthropic CEO Dario Amodei 收到美国商务部长 Howard Lutnick 的信函,以”国家安全”为由,要求暂停所有外国公民对 Fable 5 和 Mythos 5 的访问——无论是否在美国境内,包括 Anthropic 内部的外籍员工。

管制令的关键细节

  • 信中未提供具体的国家安全关切细节
  • 触发原因:据《华尔街日报》报道,亚马逊的研究团队要求模型读取特定代码库并识别软件缺陷,将 Fable 5 的推理能力转化为自动化漏洞发现工具,亚马逊 CEO Andy Jassy 随后直接向包括财政部长 Scott Bessent 在内的政府高级别官员通报了这一发现,此后商务部决定采取行动
  • 逻辑链:绕过 Fable 5 的安全层 → 访问底层 Mythos 模型的完整网络安全能力 → 国家安全风险
  • 当晚 Fable 5 在全球范围内下线

Anthropic 的抗辩

美联社报道,Anthropic 在官方声明中提出了几个关键反驳:

  1. 审查亚马逊团队的漏洞报告后,认为其仅被用于识别少量此前已知的微小漏洞,”这些漏洞看起来都相对简单”
  2. 其他公开可用的模型(包括 GPT-5.5)也能在没有越狱的情况下发现同样的漏洞
  3. 这些发现只能在单一特定情形下暴露部分能力,并非通用型越狱
  4. GPT-5.5 等竞品具备同等能力,但未受到类似出口管制
  5. 核心立场:”我们不同意,发现一个局部的潜在越狱方法,应该成为召回一款已向数亿人部署的商业模型的理由”

尽管如此,Anthropic 最终选择全面关闭 Fable 5 和 Mythos 5——原因是无法通过 API 密钥核实使用者的国籍,若要选择性合规则操作上不可行,最终只能为所有客户全面停用以确保合规。

6. 应对与深层博弈:两场官司与一个悖论

Fable 5 的出口管制并非孤立事件,而是 Anthropic 与美国政府长期博弈的最新一章。

Anthropic 与五角大楼的法律纠纷

表注:法律纠纷时间线整理自 AP News 等报道。
时间 事件
2026 年 2 月 五角大楼与 Anthropic 谈判破裂:Anthropic 拒绝允许 Claude 被用于致命自主武器或大规模平民监控
2026 年 2 月 Anthropic 被贴上”供应链风险”标签(历史上通常只用于外国对手),要求国防承包商承诺不使用 Claude 模型
2026 年 3 月 Anthropic 对特朗普政府提起两起诉讼,法院暂时阻止了黑名单执行
2026 年 6 月 9 日 Fable 5 上线
2026 年 6 月 12 日 出口管制令到达(与 Anthropic 在法庭上与政府交锋的同一周)

这个时间线让人难以忽视一个可能性:出口管制令与 Anthropic 在军事应用上划红线的立场之间存在关联。Anthropic 拒绝让 Claude 参与致命自主武器开发,两个月后被列为”供应链风险”,又四个月后其旗舰产品被强制下线——即使两者之间没有直接因果关系,时间上的巧合已经足以引发行业对政府报复性执法的担忧。

微软的”内外有别”

6 月 11 日,微软以数据保护问题为由,对员工使用 Fable 5 实施了临时禁令。问题出在 Anthropic 要求对 Mythos 系列的提示词和输出内容至少保留 30 天用于安全监控,被标记的内容可保留最长两年——这与微软此前与 Anthropic 签订的企业零数据留存协议直接冲突。

值得玩味的是,微软正通过 GitHub Copilot 和 Microsoft Foundry 向企业客户销售 Claude Fable 5,同时却禁止自己的员工使用——”对外卖,对内禁”。这个矛盾凸显了企业 AI 采用中数据留存政策的灰色地带。

透明度的悖论

Anthropic 在发布前公开承认”任何模型的完美越狱抵抗都是不可能实现的”——这本身是善意的透明表态。但政府似乎正是以这一承认为框架,为出口管制找到了依据。

这个悖论值得警惕:如果透明承认局限会招来监管,而不透明则不会,行业将得出”减少信息公开”的结论——这恰恰与安全倡导者追求的方向相反。

7. 数据安全的影响:当交互本身不再可信

Fable 5 事件暴露了一个比越狱本身更根本的问题:当 AI 厂商可以在用户不知情的情况下将请求静默回退至较弱的模型,用户与 AI 服务之间的数据交互就存在透明度缺陷。

这种影响体现在三个层面:

个人用户:你怎么确定 AI 给你的答案是”完整模型”的输出,而非被安全分类器静默回退至 Opus 4.8 后的版本?对于依赖 AI 辅助决策的专业场景(安全研究、化学实验、代码审计),这种不确定性可能直接影响工作质量。

企业用户:Fable 5 的数据留存政策(提示词和输出至少保留 30 天,标记内容最长两年)意味着商业机密可能在未经充分告知的情况下被存储。微软的内部禁令已经说明,大型科技公司在评估后认为这一风险不可接受。

数据传输层面:在用户与 AI 服务的交互中,传输链路的安全性同样值得关注。当 AI 交互内容可能被留存、分析或被安全分类器审查时,确保数据传输路径的隐私性和安全性就变得尤为重要。对于需要在不同地区访问 AI 服务的用户来说,为 AI Agent 配置代理策略不仅是防拦截的问题,更是保障交互数据传输安全的基础措施。

常见问题 FAQ

Q1:Claude Fable 5 和 Mythos 5 是什么关系?

两者基于同一个底层模型,通过安全分类器层分隔为两个产品。Mythos 5 移除了网络安全过滤层,仅供经审查的网络防御者和关键基础设施运营商使用;Fable 5 保留了安全分类器,面向公众开放。Anthropic 自己的类比是:Mythos 5 是上了枪弹的武器,Fable 5 是同款枪但出厂自带保险。如果有人绕过 Fable 5 的安全分类器,理论上就能访问底层 Mythos 的完整能力——这也是后来出口管制令的核心逻辑。

Q2:”隐形降级”具体是怎么运作的?用户能察觉吗?

Fable 5 的安全分类器在网络安全/生物学/化学等高风险领域和疑似模型蒸馏场景中,均采用静默回退机制。当安全分类器触发时,Fable 5 会静默将请求回退至能力较弱的 Claude Opus 4.8,由 Opus 4.8 生成响应——这个模型切换过程对用户完全不可见。据权威媒体报道,用户可能永远不会知道发生了降级(”Users may never know”)。Anthropic 官方页面也证实,网络安全和生物学领域的查询会被自动路由至 Opus 4.8。Anthropic 道歉后,回退改为可见,但降级本身未被取消。

Q3:Fable 5 真的被越狱攻破了吗?

这个问题目前存在争议。亚马逊的研究团队要求模型读取特定代码库并识别软件缺陷,CEO Andy Jassy 随后直接向包括财政部长 Scott Bessent 在内的政府高级别官员通报了这一发现;安全社区的测试者 Pliny the Liberator 也声称绕过安全分类器并提取了系统提示词。但 Anthropic 审查后明确否认存在通用越狱方法,指出发现的漏洞”都相对简单”且在其他公开模型(包括 GPT-5.5)中也广泛存在,只能在特定条件下产生受限输出,并非系统性攻破。核心分歧在于:少量已知简单漏洞的暴露是否等同于”安全防线失守”。

Q4:美国出口管制令对非美国用户有什么影响?

6 月 12 日美国商务部下令后,虽然管制的法律对象是”外国公民”,但 Anthropic 在声明中明确表示,由于无法通过 API 密钥核实使用者的国籍,最终的实际结果是:Fable 5 和 Mythos 5 对全球所有客户——包括美国境内的美国公民——全部强制停用。 Anthropic 的官方表述是”这一命令的净效应是,我们必须突然为所有客户禁用 Fable 5 和 Mythos 5 以确保合规”。同源的 Claude Opus 4.8 等模型未受影响,仍可正常使用。出口管制的法律依据和适用范围可能随后续诉讼和政策调整而变化。

Q5:Fable 5 还会重新上线吗?

截至本文发布时,Anthropic 表示认为存在误解,正与政府沟通尽快恢复访问,但未给出具体时间表。恢复访问可能取决于:越狱风险的进一步评估、出口管制令的法律挑战结果、以及 Anthropic 与政府在军事应用红线问题上的博弈进展。关注 Anthropic 官方博客和 X 账号可以获取最新动态。


IPWeb 提供覆盖 220+ 国家和地区的住宅代理网络,帮助用户建立与 AI 服务之间加密、匿名的通信路径,保护交互数据的传输安全。了解详情

Winston
Winston
IP 代理技术总监

我是 Winston,负责构建与维护千万级全球 IP 资源池的底层架构。作为技术总监,我的核心使命是重新定义连接的稳定性。从动态住宅 IP 的智能路由算法,到高并发环境下的负载均衡,我致力于打造一张低延迟、零阻塞的全球代理网络,为您的企业级业务提供最坚实的网络基石。

你可能感兴趣

2026 大模型缺语料:住宅代理 + Scraping API 流水线怎么搭

2026 大模型缺语料:住宅代理 + Scraping API 流水线怎么搭

2026 年中,AI 基础设施建设再度加速。中国持续扩大国家支持的 AI 基础设施——包括国家集成电路产业投资基金三期(大基金三期,约 3440 亿元人民币 / 约 475 亿美元,2024 年 5 ...

Winston

Winston

IP 代理技术总监

AI Agent 的天花板:为什么最强模型也会在数据采集上翻车?

AI Agent 的天花板:为什么最强模型也会在数据采集上翻车?

最近,Anthropic 发了一篇研究论文,让很多人坐不住了。 他们让 Claude、Biomni OSS、GPT 等多类模型去病毒学数据库 NCBI Virus 里检索序列数据——一个听起来非常基础...

Winston

Winston

IP 代理技术总监

奥尔特曼提出AI三阶段论:主动式AI是下一站

从”你问它答”到”它主动帮你”:奥尔特曼的 AI 三阶段论,下一站是主动式 AI

想象这样一个场景:你还没开口,AI 就已经帮你整理好了今天的会议纪要、回复了三封可以自动处理的邮件、并且在你日历的空档里插入了提醒——"下周二是你妈妈的生日,建议提前订花"。 这不是科幻。2026 年...

Winston

Winston

IP 代理技术总监

准备好开始使用了吗?

严格反滥用

禁止欺诈、自动化操作及违规用途

企业级服务

仅面向合法商业与技术使用场景

风控与限制

异常行为可触发限制或终止服务

合规数据使用

数据获取与使用需符合相关法规

隐私保护优先

严禁采集或滥用个人敏感信息

所有服务均需遵守《使用政策》