Anthropic 于 2026 年 6 月 9 日发布了 Claude Fable 5,其定价迫使开发者必须做出真正的权衡:Claude Fable 5 与 Opus 4.8 之争,核心在于成本。Fable 5 的每 token 价格恰好是 Opus 4.8 的两倍。其输入成本为每百万 token $10(Opus 4.8 为 $5),输出成本为每百万 token $50(Opus 4.8 为 $25)。因此,在你阅读任何基准测试(benchmark)声明之前,数学逻辑已经固定:相同的供应商、相同的 Messages API,而新模型溢价 2 倍。有趣的地方在于,搞清楚什么时候这笔溢价是物有所值的,而什么时候你是在白白烧钱。如果你想先了解旧模型的完整背景,我们的 Claude Opus 4.8 指南涵盖了它的定义及在产品线中的定位。
Claude Fable 5 和 Opus 4.8 属于同一家族。Fable 5 的每 token 成本恰好是 Opus 4.8 的 2 倍($10/$50 对比 $5/$25)。对于大多数聊天、代码生成(code generation)和检索(retrieval)工作,Opus 4.8 是更明智的选择。只有当你需要处理跨越数百万 token 且能保持连贯性的超长周期自主任务(long-horizon autonomous work)时,才考虑使用 Fable 5。否则,省下这笔钱。

Claude Fable 5 vs Opus 4.8 概览
以下是对比表,方便你一目了然地查看权衡因素。
| 维度 | Claude Fable 5 | Claude Opus 4.8 | | :--- | :--- | :--- | | API model id | claude-fable-5 | claude-opus-4-8 | | 输入价格 (每 1M tokens) | $10.00 | $5.00 | | 输出价格 (每 1M tokens) | $50.00 | $25.00 | | 相对成本 | 2x Opus 4.8 | 基准 | | 上下文 (Context) | 支持数百万 token 的操作;未公布固定数值 | 1M token 上下文窗口 | | 思考与投入 (Thinking and effort) | Adaptive thinking | Adaptive thinking + effort (low/medium/high/xhigh/max) | | 定位 | 专为通用用途设计的 Mythos 级模型;Anthropic 目前向公众提供的最强模型 | 高度强大;在 Fable 5 发布前是 Anthropic 最强的通用模型 | | 适用场景 | 超长周期自主任务、大规模迁移、多小时级 Agent | 大多数聊天、代码生成、RAG 和交互式工作负载 |
关于上下文的说明:Anthropic 尚未公布 Fable 5 的确切 context-window 数值。官方描述其能在数百万 token 的跨度内保持专注,因此请将其长上下文行为视为一种定性优势,而非一个可以量化的规格。相比之下,Opus 4.8 拥有明确记录的 1M token 窗口。如果你的决策取决于精确的上下文数据,Opus 4.8 是那个可以在设计文档中引用的模型;Anthropic 的 模型概览文档 列出了该系列已发布的规格。关于新模型的通俗介绍,我们的 Claude Fable 5 说明涵盖了基础知识,而我们对 Opus 4.8 定价的拆解则深入探讨了成本方面。
价格:Fable 5 的成本恰好是两倍
这是整个对比中最清晰的事实,所以从这里开始。
Fable 5 的输入价格为每百万 token $10,输出价格为每百万 token $50。Opus 4.8 的输入价格为每百万 token $5,输出价格为每百万 token $25。输入费率两倍,输出费率两倍。没有例外,没有改变比例的分层折扣,也没有改变天平的长上下文附加费。Fable 5 在各方面都是 Opus 4.8 的 2 倍。你可以在 Anthropic 的 定价页面 确认当前费率。
折算到每 1,000 token,结果如下:
- Fable 5:$0.010 输入,$0.050 输出
- Opus 4.8:$0.005 输入,$0.025 输出
孤立地看,这些数字似乎微不足道,但这正是团队预算失控的原因。一旦规模化,比例才是关键。
以一个真实的月度案例为例。假设一个生产环境功能每月处理 2 亿个输入 token 并生成 4000 万个输出 token。使用 Opus 4.8,费用为 200 x $5 + 40 x $25,即 $1,000 + $1,000 = $2,000。使用 Fable 5,相同的工作负载为 200 x $10 + 40 x $50,即 $2,000 + $2,000 = $4,000。同样的 token,同样的工作,费用从 $2,000 变成 $4,000。溢价随使用量线性增长,因此对于全天候运行的工作负载,一旦更换模型字符串,模型账单就会翻倍。
这种框架很重要,因为升级决策不是“Fable 5 是否更好”。它几乎总是更好。决策的关键在于“Fable 5 是否好到足以让这一特定项目的支出翻倍”。对于低流量的内部工具,每月多出 $2,000 可能只是噪音。但对于高流量的面向客户的端点,这可能意味着健康利润与亏损之间的区别。请根据工作负载定价,而不是根据模型。如果你想对更便宜的选择进行更深入的成本评估,请参阅我们的 Opus 4.8 定价分析;针对新模型的具体费率表,我们的 Claude Fable 5 定价指南提供了详细信息。
能力:Fable 5 领先之处
Fable 5 并非 Opus 4.8 的营销换壳版。它是一款能力确实更强的模型,这种差距在长周期的自主工作中表现得最为明显。
在 Claude Fable 5 发布公告 中,Anthropic 将 Fable 5 描述为一款专为通用用途设计的 Mythos 级模型,是该公司向公众提供的最强模型。它专为超长周期的自主任务而构建,并能在数百万 token 的跨度内保持专注。最后这句话就是核心卖点。很多模型都能写出好的函数或回答问题,但极少数模型能运行数小时,在海量上下文中保持连贯的计划,并在结束时依然做出正确的决策。
最清晰的证明是 Stripe 的案例。Fable 5 在一天内为 Stripe 完成了 5000 万行 Ruby 代码库的迁移,团队估计这项工作原本需要两个月或更长时间。这不是抽象的基准测试,而是一个真实代码库在真实规模下的迁移,其瓶颈在于持续的连贯性,而非原始的每 token 质量。一个在处理几十万 token 后就会偏离主题或失去思路的模型,无论价格如何都无法胜任这项工作。这正是 Fable 5 为之而生的工作负载。
记忆力进一步扩大了差距。在《杀戮尖塔》(Slay the Spire)测试中,赋予 Fable 5 持久文件记忆后,其表现比 Opus 4.8 提升了 3 倍。这个教训可以推广到卡牌游戏之外:当任务跨越多个步骤,且模型可以给自己写笔记并读回时,Fable 5 会将这些记忆转化为长周期运行中显著更好的结果。如果你的 Agent 在长会话中维护着草稿板(scratchpad)、计划文件或结构化记忆库,那么 Fable 5 的长周期优势将转化为可衡量的胜利。
在基准测试方面,Fable 5 在几乎所有测试中都达到了 SOTA(最先进水平)。它在 Cognition 的 FrontierCode 和 FrontierBench、CursorBench 以及 Hebbia 的金融基准测试(Finance Benchmark)中名列前茅。Anthropic 尚未公布这些测试的具体分数,因此请将这些排名视为方向性参考,而非引用数据。其模式是一致的:Fable 5 在编程、Agent 任务和金融类评估中处于领先地位。结论不在于排行榜上的差值,而在于该模型在处理那些对应现实世界高价值工作的复杂、多步骤任务时,处于顶尖水平。
为了公平对比,还有一点值得了解:Fable 5 带有安全防护机制,会将某些敏感查询、网络安全、生物和化学以及模型蒸馏(model-distillation)请求路由到 Opus 4.8,而不是直接回答。Anthropic 表示这在不到 5% 的会话中触发,因此很少影响正常使用,但这确实是一种行为差异。对于大多数工作负载,你永远不会遇到这种情况。如需与其他供应商进行横向对比,我们的 Opus 4.8 vs GPT-5.5 和 Gemini 3.5 对比以及相应的 Fable 5 vs GPT-5.5 和 Gemini 3.5 文章将各模型置于更广泛的领域进行评估。
为什么 Opus 4.8 是更明智的选择
这是发布公告往往会略过的部分:对于很大一部分生产环境工作,Opus 4.8 是更好的经济选择,而且差距巨大。
在 Fable 5 问世之前,Opus 4.8 是 Anthropic 最强大的通用模型。它并没有在 Fable 5 发布的那天变弱。它仍然是一款强大的前沿级模型,拥有记录在案的 1M token 上下文窗口、adaptive thinking 以及从 low 到 max 的完整 effort 范围。对于大多数聊天界面、大多数代码生成以及大多数检索增强生成(RAG),Opus 4.8 都能以一半的每 token 成本产生出色的结果。如果任务可以轻松容纳在一百万 token 内,并且在单轮或短循环中就能解决,那么选择 Fable 5 很可能是在为你用不到的性能余量支付双倍费用。
以下三类工作负载更倾向于选择 Opus 4.8:
- 交互式聊天和助手:每一轮对话都很短,延迟很重要,且模型很少需要维持一个长达数小时的计划。
- 函数、文件或拉取请求(PR)级别的代码生成和审查:上下文有限且任务能快速完成。
- RAG 和文档问答:将相关上下文填入 1M token 窗口并提出针对性问题。窗口大小是这里的核心资产,而 Opus 4.8 拥有明确的窗口规格。
Fable 5 自身的设计中还隐藏着一个极具说服力的论点。当 Fable 5 触发其安全防护类别之一时,它会将查询路由到 Opus 4.8。这款新模型在处理敏感案例时实际上会回退到旧模型。这是一个强烈的信号,表明 Opus 4.8 是值得信赖、能力出众且足以在真实流量中替代旗舰模型的。如果它是 Anthropic 销售的最昂贵模型的安全网,那么它对于你大部分的日常请求来说绰绰有余。
因此,对成本敏感的默认策略很简单:从 Opus 4.8 开始,进行衡量,然后仅升级那些证明确实需要长周期自主能力的特定工作负载。如果连 Opus 4.8 都超出了工作负载的需求,Claude Sonnet 4.6 就在其下,输入 $3,输出 $15,能以极低的成本处理高流量、简单的任务。关于更便宜的 Claude 层级的设置细节,我们的 Opus 4.8 API 指南演示了调用过程。
决策框架:你应该如何选择?
抛开感性认知,根据工作负载进行路由。这些规则涵盖了大多数真实案例。
- 短小的单轮任务(聊天、分类、提取、快速代码片段): 使用 Opus 4.8。2 倍的溢价在这里买不到任何东西,因为任务从未行使 Fable 5 的长周期优势。
- 有限的代码生成和审查(一个函数、一个文件、一个 PR): 使用 Opus 4.8。结果强劲,成本减半,且上下文契合。
- 1M token 窗口内的 RAG、文档问答和分析: 使用 Opus 4.8。记录在案的百万 token 窗口是你付费购买的功能,而 Opus 4.8 已经具备。
- 必须在极长运行中保持连贯性的多小时自主 Agent: 使用 Fable 5。这是它为之而生的工作负载,连贯性差距证明了价格的合理性。
- 一次性跨越巨大代码库的大规模迁移和重构: 使用 Fable 5。Stripe 的 5000 万行迁移就是模板。在这种规模下,持续的专注力是瓶颈,而 Fable 5 突破了它。
- 具有持久记忆的长运行 Agent: 使用 Fable 5。3 倍的记忆测试结果表明,长会话中的复合收益是真实存在的。
- 成本是硬约束: 使用 Opus 4.8,或者针对高流量简单工作降级到 Sonnet 4.6。将 Fable 5 留给少数真正需要它的任务。
元规则:默认使用 Opus 4.8,仅当单个工作负载表现出对长周期自主性的需求时,才将其提升至 Fable 5。因为一个任务受益就全面翻倍成本,是团队在旗舰模型上超支最常见的原因。
在代码中切换模型
对于权衡这一决策的人来说,好消息是:切换非常简单。两个模型都位于同一个 Messages API 之后。没有 SDK 迁移,没有新的认证流程,也没有改变请求体结构。你只需更改模型 ID 字符串,其他什么都不用动。新模型使用 claude-fable-5,较便宜的模型使用 claude-opus-4-8。
import anthropic
client = anthropic.Anthropic()
# 较便宜的前沿级默认模型
response = client.messages.create(
model="claude-opus-4-8", # 切换到 "claude-fable-5" 以使用旗舰模型
max_tokens=16000,
thinking={"type": "adaptive"},
messages=[{"role": "user", "content": "Summarize this design doc and list open questions."}],
)
for block in response.content:
if block.type == "text":
print(block.text)
由于唯一的区别是模型字符串,你可以按请求进行路由。将日常流量发送到 claude-opus-4-8,并针对少数需要长周期自主性的任务将字符串翻转为 claude-fable-5,所有这些都可以在同一个客户端和同一个代码路径中完成。这使得“默认低价、按需升级”策略易于实施:单个配置值或一行条件判断即可决定由哪个模型处理给定请求。关于旧模型的完整请求参数,请参阅我们的 Opus 4.8 API 演练;相应的 Fable 5 API 指南涵盖了新模型。
使用 Apifox 自行对比
定价表和基准测试声明只能带你走这么远。针对你的工作负载解决 Claude Fable 5 vs Opus 4.8 问题的最诚实方法是,向两个模型 ID 发送相同的 prompt,并查看返回结果。这正是 Apifox 可以轻松处理的工作。
针对 Anthropic Messages API 设置一个请求,然后复制它并仅更改模型字段,一个填入 claude-fable-5,另一个填入 claude-opus-4-8。使用真正类似于你生产环境流量的 prompt 发送两者,而不是玩具式的问题。然后并排比较两个响应:哪个回答更准确,哪个更完整,以及质量差距是否大到足以影响你的使用场景。
Apifox 还会显示驱动成本决策的数据。你可以观察每次调用的延迟,并直接从每个响应中读取 token 使用情况,包括决定你实际支付金额的输入和输出计数。将两个模型的使用情况与质量差异放在一起,2 倍的溢价就不再抽象。你可以针对真实的 prompt 看到 Fable 5 的输出是否值得额外的 token 和金钱,或者 Opus 4.8 是否已经胜任。将这两个请求保存为一个小型集合,你就拥有了一个可重复的 A/B 测试框架,每当 prompt 更改或新模型发布时都可以重新运行。如果你想尝试,可以 下载 Apifox 并在几分钟内构建这两个请求。这比再读一份规格表更能让你快速获得确定的答案,而且 Apifox 能将整个对比过程集中在一处。

开发必备:API 全流程管理神器 Apifox
介绍完上文的内容,我想额外介绍一个对开发者同样重要的效率工具 —— Apifox。作为一个集 API 文档、调试、设计、测试、Mock、自动化测试于一体的工具,Apifox 是目前提升研发效率的首选。
如果你正在开发项目,不妨试试其极其友好的界面设计,它完全兼容 Postman 和 Swagger 数据格式,导入数据非常方便,,即使是新手也能很快上手,点击这里即可注册使用。

值得一提的是,除了个人和常规团队使用,针对有高安全合规要求、或需要在内网环境协作的企业,Apifox 还提供了深度定制的私有化部署方案。
获取专属报价与部署方案
详细的私有化部署系统架构与安全白皮书
针对您公司规模的专属报价单
免费的 1v1 专属产品演示 (Demo) 机会