Claude Fable 5 vs Opus 4.8：两倍价格是否物有所值？

Anthropic 于 2026 年 6 月 9 日发布了 Claude Fable 5，其定价迫使开发者必须做出真正的权衡：Claude Fable 5 与 Opus 4.8 之争，核心在于成本。Fable 5 的每 token 价格恰好是 Opus 4.8 的两倍。其输入成本为每百万 token $10（Opus 4.8 为 $5），输出成本为每百万 token $50（Opus 4.8 为 $25）。因此，在你阅读任何基准测试（benchmark）声明之前，数学逻辑已经固定：相同的供应商、相同的 Messages API，而新模型溢价 2 倍。有趣的地方在于，搞清楚什么时候这笔溢价是物有所值的，而什么时候你是在白白烧钱。如果你想先了解旧模型的完整背景，我们的 Claude Opus 4.8 指南涵盖了它的定义及在产品线中的定位。

Claude Fable 5 和 Opus 4.8 属于同一家族。Fable 5 的每 token 成本恰好是 Opus 4.8 的 2 倍（$10/$50 对比 $5/$25）。对于大多数聊天、代码生成（code generation）和检索（retrieval）工作，Opus 4.8 是更明智的选择。只有当你需要处理跨越数百万 token 且能保持连贯性的超长周期自主任务（long-horizon autonomous work）时，才考虑使用 Fable 5。否则，省下这笔钱。

Claude Fable 5 vs Opus 4.8 概览

以下是对比表，方便你一目了然地查看权衡因素。

关于上下文的说明：Anthropic 尚未公布 Fable 5 的确切 context-window 数值。官方描述其能在数百万 token 的跨度内保持专注，因此请将其长上下文行为视为一种定性优势，而非一个可以量化的规格。相比之下，Opus 4.8 拥有明确记录的 1M token 窗口。如果你的决策取决于精确的上下文数据，Opus 4.8 是那个可以在设计文档中引用的模型；Anthropic 的模型概览文档列出了该系列已发布的规格。关于新模型的通俗介绍，我们的 Claude Fable 5 说明涵盖了基础知识，而我们对 Opus 4.8 定价的拆解则深入探讨了成本方面。

价格：Fable 5 的成本恰好是两倍

这是整个对比中最清晰的事实，所以从这里开始。

Fable 5 的输入价格为每百万 token $10，输出价格为每百万 token $50。Opus 4.8 的输入价格为每百万 token $5，输出价格为每百万 token $25。输入费率两倍，输出费率两倍。没有例外，没有改变比例的分层折扣，也没有改变天平的长上下文附加费。Fable 5 在各方面都是 Opus 4.8 的 2 倍。你可以在 Anthropic 的定价页面确认当前费率。

折算到每 1,000 token，结果如下：

Fable 5：$0.010 输入，$0.050 输出
Opus 4.8：$0.005 输入，$0.025 输出

孤立地看，这些数字似乎微不足道，但这正是团队预算失控的原因。一旦规模化，比例才是关键。

以一个真实的月度案例为例。假设一个生产环境功能每月处理 2 亿个输入 token 并生成 4000 万个输出 token。使用 Opus 4.8，费用为 200 x $5 + 40 x $25，即 $1,000 + $1,000 = $2,000。使用 Fable 5，相同的工作负载为 200 x $10 + 40 x $50，即 $2,000 + $2,000 = $4,000。同样的 token，同样的工作，费用从 $2,000 变成 $4,000。溢价随使用量线性增长，因此对于全天候运行的工作负载，一旦更换模型字符串，模型账单就会翻倍。

这种框架很重要，因为升级决策不是“Fable 5 是否更好”。它几乎总是更好。决策的关键在于“Fable 5 是否好到足以让这一特定项目的支出翻倍”。对于低流量的内部工具，每月多出 $2,000 可能只是噪音。但对于高流量的面向客户的端点，这可能意味着健康利润与亏损之间的区别。请根据工作负载定价，而不是根据模型。如果你想对更便宜的选择进行更深入的成本评估，请参阅我们的 Opus 4.8 定价分析；针对新模型的具体费率表，我们的 Claude Fable 5 定价指南提供了详细信息。

能力：Fable 5 领先之处

Fable 5 并非 Opus 4.8 的营销换壳版。它是一款能力确实更强的模型，这种差距在长周期的自主工作中表现得最为明显。

在 Claude Fable 5 发布公告中，Anthropic 将 Fable 5 描述为一款专为通用用途设计的 Mythos 级模型，是该公司向公众提供的最强模型。它专为超长周期的自主任务而构建，并能在数百万 token 的跨度内保持专注。最后这句话就是核心卖点。很多模型都能写出好的函数或回答问题，但极少数模型能运行数小时，在海量上下文中保持连贯的计划，并在结束时依然做出正确的决策。

最清晰的证明是 Stripe 的案例。Fable 5 在一天内为 Stripe 完成了 5000 万行 Ruby 代码库的迁移，团队估计这项工作原本需要两个月或更长时间。这不是抽象的基准测试，而是一个真实代码库在真实规模下的迁移，其瓶颈在于持续的连贯性，而非原始的每 token 质量。一个在处理几十万 token 后就会偏离主题或失去思路的模型，无论价格如何都无法胜任这项工作。这正是 Fable 5 为之而生的工作负载。

记忆力进一步扩大了差距。在《杀戮尖塔》（Slay the Spire）测试中，赋予 Fable 5 持久文件记忆后，其表现比 Opus 4.8 提升了 3 倍。这个教训可以推广到卡牌游戏之外：当任务跨越多个步骤，且模型可以给自己写笔记并读回时，Fable 5 会将这些记忆转化为长周期运行中显著更好的结果。如果你的 Agent 在长会话中维护着草稿板（scratchpad）、计划文件或结构化记忆库，那么 Fable 5 的长周期优势将转化为可衡量的胜利。

在基准测试方面，Fable 5 在几乎所有测试中都达到了 SOTA（最先进水平）。它在 Cognition 的 FrontierCode 和 FrontierBench、CursorBench 以及 Hebbia 的金融基准测试（Finance Benchmark）中名列前茅。Anthropic 尚未公布这些测试的具体分数，因此请将这些排名视为方向性参考，而非引用数据。其模式是一致的：Fable 5 在编程、Agent 任务和金融类评估中处于领先地位。结论不在于排行榜上的差值，而在于该模型在处理那些对应现实世界高价值工作的复杂、多步骤任务时，处于顶尖水平。

为了公平对比，还有一点值得了解：Fable 5 带有安全防护机制，会将某些敏感查询、网络安全、生物和化学以及模型蒸馏（model-distillation）请求路由到 Opus 4.8，而不是直接回答。Anthropic 表示这在不到 5% 的会话中触发，因此很少影响正常使用，但这确实是一种行为差异。对于大多数工作负载，你永远不会遇到这种情况。如需与其他供应商进行横向对比，我们的 Opus 4.8 vs GPT-5.5 和 Gemini 3.5 对比以及相应的 Fable 5 vs GPT-5.5 和 Gemini 3.5 文章将各模型置于更广泛的领域进行评估。

为什么 Opus 4.8 是更明智的选择

这是发布公告往往会略过的部分：对于很大一部分生产环境工作，Opus 4.8 是更好的经济选择，而且差距巨大。

在 Fable 5 问世之前，Opus 4.8 是 Anthropic 最强大的通用模型。它并没有在 Fable 5 发布的那天变弱。它仍然是一款强大的前沿级模型，拥有记录在案的 1M token 上下文窗口、adaptive thinking 以及从 low 到 max 的完整 effort 范围。对于大多数聊天界面、大多数代码生成以及大多数检索增强生成（RAG），Opus 4.8 都能以一半的每 token 成本产生出色的结果。如果任务可以轻松容纳在一百万 token 内，并且在单轮或短循环中就能解决，那么选择 Fable 5 很可能是在为你用不到的性能余量支付双倍费用。

以下三类工作负载更倾向于选择 Opus 4.8：

交互式聊天和助手：每一轮对话都很短，延迟很重要，且模型很少需要维持一个长达数小时的计划。
函数、文件或拉取请求（PR）级别的代码生成和审查：上下文有限且任务能快速完成。
RAG 和文档问答：将相关上下文填入 1M token 窗口并提出针对性问题。窗口大小是这里的核心资产，而 Opus 4.8 拥有明确的窗口规格。

Fable 5 自身的设计中还隐藏着一个极具说服力的论点。当 Fable 5 触发其安全防护类别之一时，它会将查询路由到 Opus 4.8。这款新模型在处理敏感案例时实际上会回退到旧模型。这是一个强烈的信号，表明 Opus 4.8 是值得信赖、能力出众且足以在真实流量中替代旗舰模型的。如果它是 Anthropic 销售的最昂贵模型的安全网，那么它对于你大部分的日常请求来说绰绰有余。

因此，对成本敏感的默认策略很简单：从 Opus 4.8 开始，进行衡量，然后仅升级那些证明确实需要长周期自主能力的特定工作负载。如果连 Opus 4.8 都超出了工作负载的需求，Claude Sonnet 4.6 就在其下，输入 $3，输出 $15，能以极低的成本处理高流量、简单的任务。关于更便宜的 Claude 层级的设置细节，我们的 Opus 4.8 API 指南演示了调用过程。

决策框架：你应该如何选择？

抛开感性认知，根据工作负载进行路由。这些规则涵盖了大多数真实案例。

短小的单轮任务（聊天、分类、提取、快速代码片段）： 使用 Opus 4.8。2 倍的溢价在这里买不到任何东西，因为任务从未行使 Fable 5 的长周期优势。
有限的代码生成和审查（一个函数、一个文件、一个 PR）： 使用 Opus 4.8。结果强劲，成本减半，且上下文契合。
1M token 窗口内的 RAG、文档问答和分析： 使用 Opus 4.8。记录在案的百万 token 窗口是你付费购买的功能，而 Opus 4.8 已经具备。
必须在极长运行中保持连贯性的多小时自主 Agent： 使用 Fable 5。这是它为之而生的工作负载，连贯性差距证明了价格的合理性。
一次性跨越巨大代码库的大规模迁移和重构： 使用 Fable 5。Stripe 的 5000 万行迁移就是模板。在这种规模下，持续的专注力是瓶颈，而 Fable 5 突破了它。
具有持久记忆的长运行 Agent： 使用 Fable 5。3 倍的记忆测试结果表明，长会话中的复合收益是真实存在的。
成本是硬约束： 使用 Opus 4.8，或者针对高流量简单工作降级到 Sonnet 4.6。将 Fable 5 留给少数真正需要它的任务。

元规则：默认使用 Opus 4.8，仅当单个工作负载表现出对长周期自主性的需求时，才将其提升至 Fable 5。因为一个任务受益就全面翻倍成本，是团队在旗舰模型上超支最常见的原因。

在代码中切换模型

对于权衡这一决策的人来说，好消息是：切换非常简单。两个模型都位于同一个 Messages API 之后。没有 SDK 迁移，没有新的认证流程，也没有改变请求体结构。你只需更改模型 ID 字符串，其他什么都不用动。新模型使用 claude-fable-5，较便宜的模型使用 claude-opus-4-8。

import anthropic

client = anthropic.Anthropic()

# 较便宜的前沿级默认模型
response = client.messages.create(
    model="claude-opus-4-8",          # 切换到 "claude-fable-5" 以使用旗舰模型
    max_tokens=16000,
    thinking={"type": "adaptive"},
    messages=[{"role": "user", "content": "Summarize this design doc and list open questions."}],
)

for block in response.content:
    if block.type == "text":
        print(block.text)

由于唯一的区别是模型字符串，你可以按请求进行路由。将日常流量发送到 claude-opus-4-8，并针对少数需要长周期自主性的任务将字符串翻转为 claude-fable-5，所有这些都可以在同一个客户端和同一个代码路径中完成。这使得“默认低价、按需升级”策略易于实施：单个配置值或一行条件判断即可决定由哪个模型处理给定请求。关于旧模型的完整请求参数，请参阅我们的 Opus 4.8 API 演练；相应的 Fable 5 API 指南涵盖了新模型。

使用 Apifox 自行对比

定价表和基准测试声明只能带你走这么远。针对你的工作负载解决 Claude Fable 5 vs Opus 4.8 问题的最诚实方法是，向两个模型 ID 发送相同的 prompt，并查看返回结果。这正是 Apifox 可以轻松处理的工作。

针对 Anthropic Messages API 设置一个请求，然后复制它并仅更改模型字段，一个填入 claude-fable-5，另一个填入 claude-opus-4-8。使用真正类似于你生产环境流量的 prompt 发送两者，而不是玩具式的问题。然后并排比较两个响应：哪个回答更准确，哪个更完整，以及质量差距是否大到足以影响你的使用场景。

Apifox 还会显示驱动成本决策的数据。你可以观察每次调用的延迟，并直接从每个响应中读取 token 使用情况，包括决定你实际支付金额的输入和输出计数。将两个模型的使用情况与质量差异放在一起，2 倍的溢价就不再抽象。你可以针对真实的 prompt 看到 Fable 5 的输出是否值得额外的 token 和金钱，或者 Opus 4.8 是否已经胜任。将这两个请求保存为一个小型集合，你就拥有了一个可重复的 A/B 测试框架，每当 prompt 更改或新模型发布时都可以重新运行。如果你想尝试，可以下载 Apifox 并在几分钟内构建这两个请求。这比再读一份规格表更能让你快速获得确定的答案，而且 Apifox 能将整个对比过程集中在一处。