Anthropic 于 2026 年 5 月 28 日发布了 Claude Opus 4.8,并于当天在 Claude API、Claude 应用程序、Claude Code 以及各大主流云平台同步上线。它是 Claude 家族中能力最强的模型,专为复杂推理、长程智能体编码(long-horizon agentic coding)和高自主性工作而构建。其 API 模型 ID 为 claude-opus-4-8。
如果你已经在基于 Opus 4.7 进行开发,那么升级只需一行代码的模型切换。最核心的变化并非新的价格档位或更大的上下文窗口(这两者保持不变),而是质量。根据 Anthropic 的公告,Opus 4.8 在代码中遗漏缺陷的可能性比 4.7 低约四倍,并且在面对未知信息时表现得更加诚实。本指南将涵盖具体变化、如何访问以及是否值得切换。
简要总结
在发布首日,有三个关键事实值得关注:
- 模型 ID
claude-opus-4-8:现已在 Claude API、AWS、Vertex AI 和 Microsoft Foundry 上线。 - 价格与 Opus 4.7 持平:标准模式下,每百万输入 token 为 5 美元,每百万输出 token 为 25 美元。
- 1M token 上下文,128K token 输出:与 4.7 保持一致,因此你的 token 预算方案可以无缝衔接。
除此之外,你还能获得:
- 全新的
effort参数:在整个响应过程中平衡彻底性与 token 效率。 - 自适应思考(Adaptive thinking):模型会根据每个请求自行决定推理的深度。
- Claude Code 中的动态工作流(Dynamic Workflows):可以在一个会话中启动数百个并行的子智能体(subagents)。
- 更高的诚实度:更少的代码缺陷遗漏,以及更高效的工具调用(tool calling)。
有关详细的每 token 计算和成本方案,请参阅 Opus 4.8 价格细分。要开始构建,请直接跳转至 Opus 4.8 API 指南。
Opus 4.8 究竟有哪些新变化
Opus 4.8 保留了 4.7 的规格,并改进了底层模型。提升主要集中在四个领域。
代码质量。 模型能更频繁地发现自己的错误。Anthropic 报告称,与 4.7 相比,通过评审但未被察觉的代码缺陷减少了约 4 倍。对于智能体编码而言,这意味着生成的 diff 中静默 bug 更少。

诚实度与对齐。 Opus 4.8 能更主动地标记不确定性,并减少未经证实的断言。Anthropic 还报告称,其欺骗行为和误用协作率低于 4.7。如果你运行的是无人值守的智能体,这种判断力比基准测试分数更重要。
工具调用。 模型选择工具的效率更高,减少了无效调用,从而降低了智能体循环中的延迟和 token 消耗。
努力程度控制(Effort control)。 这是 API 层面最大的变化,值得单独介绍。
努力程度控制:一个模型,五个档位
effort 参数允许你调节 Claude 消耗 token 的积极程度。它位于 output_config 内部,接受五个级别:low、medium、high、xhigh 和 max。在包括 API 和 Claude Code 在内的所有界面上,默认值均为 high。
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [{"role": "user", "content": "Refactor this module."}],
"output_config": { "effort": "xhigh" }
}
关键细节:effort 会影响 所有 token,而不仅仅是推理 token。这包括文本、工具调用和函数参数。较低的 effort 意味着 Claude 会减少工具调用并编写更简洁的响应;较高的 effort 则意味着更深层的分析和更彻底的工作。
Anthropic 对 Opus 4.8 的建议是:对于编码和智能体任务,从 xhigh 开始;对于大多数重推理工作,将 high 作为底线;仅在评估(evals)确认较低级别仍能保持质量后,再降级到 medium 或 low。详细信息请参阅 Anthropic 的 effort 文档。
自适应思考取代手动预算
Opus 4.8 使用了自适应思考(adaptive thinking)。你只需设置 thinking: {type: "adaptive"},模型就会决定何时以及针对每个请求进行多少推理。在 high、xhigh 和 max 努力级别下,它几乎总是进行深度思考;在较低级别下,它可能会跳过简单问题的思考过程。
在迁移前需要注意一点:Opus 4.8 不支持使用 budget_tokens 的手动扩展思考,否则会返回 400 错误。如果你是从旧版 Opus 沿用该模式,请切换到自适应思考配合 effort 参数。我们在 Opus 4.8 API 指南中演示了具体的请求格式。
Claude Code 中的动态工作流
最引人注目的新功能集成在 Claude Code 中。动态工作流(Dynamic Workflows)允许单个会话启动数百个并行子智能体,以处理大型、分支任务。在底层,这是 xhigh 努力级别与对话中途系统消息(mid-conversation system messages)的结合——Messages API 的这一更新现在允许在对话中途插入系统条目,而不仅仅是在开始时。
这种中途干预的能力赋予了编排智能体(orchestrator agent)在任务展开时生成工作节点的权限。如果你想了解其机制以及如何通过原始 API 构建类似的编排模式,请参阅 Claude Code 动态工作流深度解析。有关 Claude Code 如何构建智能体运行的背景,我们的 Claude Code 智能体框架架构分解是一个很好的入门读物。
基准测试亮点
Anthropic 的核心数据集中在智能体工作上:
- 在 Super-Agent 基准测试中击败 GPT-5.5:该测试套件衡量端到端任务的完成情况。
- 领跑 Legal Agent 基准测试:并且是第一个在该测试中总分突破 10% 的模型。
- 在 Online-Mind2Web 中获得 84%:这是一项网页导航智能体测试。
这些是智能体评分而非聊天评分,这表明了 Opus 4.8 的定位。如需了解与其他前沿模型的正面交锋,请阅读 Opus 4.8 vs GPT-5.5 vs Gemini 3.5。早前的 Gemini 3.5 vs GPT-5.5 vs Opus 4.7 对比对于 4.7 的基准线仍然具有参考价值。
Opus 4.8 与 Opus 4.7 一览
| 属性 | Opus 4.7 | Opus 4.8 | | :--- | :--- | :--- | | API ID | claude-opus-4-7 | claude-opus-4-8 | | 输入价格 | $5 / 1M tokens | $5 / 1M tokens | | 输出价格 | $25 / 1M tokens | $25 / 1M tokens | | 上下文窗口 | 1M tokens | 1M tokens | | 最大输出 | 128K tokens | 128K tokens | | 努力级别 | low 到 max | low 到 max | | 遗漏的代码缺陷 | 基准 | 约减少 4 倍 | | 诚实度 / 对齐 | 基准 | 已提升 | | 知识截止日期 | 2026 年 1 月 | 2026 年 1 月 |
规格参数是有意保持一致的。你以同样的价格获得了一个错误更少的模型,因此对于大多数团队来说,迁移风险很低。在切换后测试你的工具模式(tool schemas)和评估脚本,然后即可发布。
如何访问 Claude Opus 4.8
你可以通过以下四个入口访问:
- Claude API:针对 Messages 端点使用模型 ID
claude-opus-4-8。从 Opus 4.8 API 指南开始。 - Claude 应用程序:它是 claude.ai 付费计划的默认高端模型,免费计划提供有限访问。
- Claude Code:作为顶级模型提供,在选择高努力模式时支持动态工作流。
- 云平台:AWS(Bedrock 上的
anthropic.claude-opus-4-8)、Vertex AI (claude-opus-4-8) 以及 Microsoft Foundry(其上下文窗口上限为 200K token)。
如果你想在购买付费 API 计划之前先试用,如何免费使用 Opus 4.8 指南涵盖了合法的低成本途径。
谁应该使用 Opus 4.8
Opus 4.8 专为工作负载频谱中难度最高的一端而构建。在以下情况请使用它:
- 你正在运行长程智能体编码会话,其中静默 bug 的代价很高。
- 你需要智能体在无人值守的情况下做出合理的判断。
- 你正在编排多步工具调用,并希望减少无效调用。
- 任务确实需要前沿的推理能力,而非简单的分类。
对于高吞吐量、延迟敏感或简单的工作,较小的模型或较低的努力级别会更合适且成本更低。努力程度控制的意义在于,你不再需要通过切换模型来切换“档位”。
在发布前测试 Opus 4.8
模型切换在代码上很容易实现,但也很容易出错。流式块(streaming chunks)、工具调用验证、新的 output_config 结构以及自适应思考响应都会改变你的代码需要解析的负载。在将 claude-opus-4-8 推向生产环境之前,请针对它重放真实请求并对比输出差异。

Apifox 在一个工作区内即可处理完整的 Messages API 层面:
- 将 Opus 4.8 端点保存为请求,附加你的
x-api-key并点击发送。 - 在同一请求中将
claude-opus-4-7替换为claude-opus-4-8并对比响应。 - 观察流式块的实时渲染及每个块的耗时。
- 添加断言以捕获更改
effort级别时可能出现的模式偏移(schema drift)。 - 模拟(Mock)端点,以便在不消耗额度的情况下测试下游代码。
下载 Apifox,将请求指向 Messages 端点,并粘贴来自 API 指南的 curl 代码段。设置过程大约只需两分钟。
常见问题解答
Claude Opus 4.8 比 Opus 4.7 更好吗? 是的,在质量方面更好。它能多捕获约 4 倍的代码缺陷,在面对不确定性时更诚实,且工具调用效率更高。价格、上下文窗口和最大输出完全一致,因此几乎没有理由留在 4.7。
Opus 4.8 的价格是多少? 标准模式下,每百万输入 token 5 美元,每百万输出 token 25 美元。快速模式的价格分别为 10 美元和 50 美元,输出速度提升 2.5 倍。详细计算见 价格细分。
Opus 4.8 的上下文窗口是多少? 在同步 Messages API 上,输入为 1M token,输出最高为 128K token。Batch API 通过 beta 请求头支持最高 300K token 的输出。在 Microsoft Foundry 上,上下文窗口为 200K token。
Opus 4.8 支持扩展思考吗? 它使用自适应思考 (thinking: {type: "adaptive"}),由模型决定推理量。不支持手动的 budget_tokens 思考,否则会返回 400 错误。
什么是 effort 参数? 它是 output_config 内部的一个设置,用于控制 Claude 在文本、工具调用和推理上消耗的 token 数量。级别包括 low、medium、high(默认)、xhigh 和 max。
我可以免费使用 Opus 4.8 吗? API 没有免费档位,但你可以在 claude.ai 的免费计划中限额试用,或通过试用额度使用。详见 免费访问指南。
什么是动态工作流? 这是 Claude Code 的一项功能,可在一个会话中启动多个并行子智能体,由 xhigh 努力模式和对话中途系统消息驱动。详情见 动态工作流指南。