DeepSeek V4-Pro 永久降价 75%：开发者深度解析

DeepSeek 将 2026 年 LLM 定价中最激进的临时折扣变成了“新常态”。5 月 22 日，团队宣布原定于 2026 年 5 月 31 日 15:59 UTC 到期的 DeepSeek-V4-Pro 七五折优惠将不再回滚。促销价格正式成为永久挂牌价。输入（Input）价格降至每百万 tokens $0.435，输出（Output）降至 $0.87，缓存命中（cache hits）降至 $0.003625。下面，我们将详细分析哪些发生了变化，哪些保持不变，以及每位 API 开发者本周应该重新考虑的事情。

DeepSeek-V4-Pro API 定价现已永久固定为原挂牌价的 1/4：输入 $0.435/MTok，输出 $0.87/MTok，缓存命中 $0.003625/MTok。
原定于 2026 年 5 月 31 日结束的 75% 促销折扣现已成为常规费率。不回滚，无意外到期。
V4-Pro 的输出价格现在比 GPT-5.5 便宜约 34 倍，同时在大多数编程和推理基准测试中达到了 GPT-5.5 约 95% 的水平。
缓存命中价格为 $0.003625/MTok，在标题降价的基础上又削减了 90%，这是一个被低估的细节。长 system prompts 在前缀部分现在几乎是免费的。
如果你上个季度是针对 GPT-5.5 或 Claude Opus 4.7 定价 AI 功能的，那么本周的构建成本逻辑（build math）已经发生了变化。

为什么这很重要

LLM 的定价通常只朝一个方向移动：缓慢下降，并带有大量脚注。DeepSeek 跳过了脚注。团队在 5 月份运行了激进的促销，观察到开发者流量攀升，并决定锁定价格，而不是让其反弹。这是一个关于中国前沿模型经济走向的结构性信号，而非一次性噱头。

如果你正在交付任何在核心路径中调用 LLM 的产品（自动补全、检索增强聊天、代码审查、Agent 循环），每百万输出 tokens $3.48 和 $0.87 之间的差距将直接体现在你本月的账单上。假设每天交付 5000 万个输出 tokens（对于任何拥有一定用户量的 Agent 来说，这是一个现实的负载），新价格将使你每月的 LLM 账单从大约 $5,200 降至 $1,300。这省下的是一个销售人员的薪水，或者一整年的 GPU 算力额度。

正在基于 DeepSeek 构建应用？Apifox 允许你在单个工作空间中生成、测试和监控 V4-Pro API 调用，包括 streaming、tool calls 和 JSON schema 验证。下载 Apifox，你可以在不到一分钟的时间内克隆本文中的请求。

在本文的其余部分，你将看到完整的全新价格表、与 GPT-5.5 和 Claude Opus 4.7 的正面交锋、大多数文章忽略的缓存命中计算、三个真实的账单场景，以及关于今天是否迁移的五步决策框架。

变化内容：公告解读

DeepSeek 的官方定价通知很短，但每一行都改变了一个数字。有三个事实值得关注：

75% 的折扣是永久性的。 原定于 2026 年 5 月 31 日 15:59 UTC 结束的促销本应在 6 月 1 日恢复到发布时的挂牌价。现在不会了。促销费率即为新的挂牌费率，追溯至发布之日并无限期延续。
降价仅适用于 V4-Pro。 DeepSeek-V4-Flash 的价格为 $0.14 / $0.28 每百万 tokens，已经非常便宜。此次降价的是前沿级别的模型 V4-Pro。关于 Flash 与 Pro 的区别，请参阅 What is DeepSeek V4。
缓存命中定价降至发布时的 1/10，自 2026 年 4 月 26 日 12:15 UTC 起生效。 这是独立于 75% 标题降价之外的另一项变动，且两者叠加。结果是：缓存命中价格为 $0.003625/MTok，这是 2026 年市场上最低的第一方前沿模型缓存价格。

综合来看，该公告表明：DeepSeek 愿意吸收核心模型的毛利以留住开发者的注意力。缓存命中的举措则表明：他们希望你专门在 V4-Pro 上构建 Agent 和长上下文工具。这两项举措都指向同一个策略：先赢得推理工作负载，稍后再实现平台变现。

全新永久价格表

每 100 万 tokens 的定价（美元），立即生效且永久化：

Token 类型	原挂牌价	现永久价	降幅
输入 (cache miss)	$1.74	$0.435	75%
输入 (cache hit)	$0.0145	$0.003625	75%
输出	$3.48	$0.87	75%

表格中隐藏的几个要点：

输出价格的下降对账单影响最大，因为在模型进行推理或编写代码的任何 Agent 循环中，输出 tokens 都占据主导地位。
缓存命中行看起来很小，是因为绝对数字极小。节省的关键在于比例。输入未命中与输入命中的比例约为 120:1。一个设计良好的 system prompt 如果能达到 90% 的缓存命中率，那么输入成本几乎可以忽略不计，这是任何拥有稳定脚手架的 Agent 的关键突破。
这些费率仅适用于 API。DeepSeek 的网页端聊天对个人用户仍然免费。

有关 V4 定价层级和 Flash 与 Pro 权衡的更深入历史背景，请参阅我们的 DeepSeek V4 API Pricing 参考指南。

V4-Pro 与 GPT-5.5、Claude Opus 4.7 及 Gemini 3.5 Flash 的对比

有趣的对比不是 V4-Pro 与过去的自己，而是与目前市面上其他前沿模型的对比。

模型	输入 ($/MTok)	输出 ($/MTok)	SWE-bench Pro
DeepSeek-V4-Pro (新)	$0.435	$0.87	55.4%
GPT-5.5	$5.00	$30.00	58.6%
Claude Opus 4.7	$3.00	$15.00	~62%
Gemini 3.5 Flash	~$1.50	~$9.00	~48%
DeepSeek-V4-Flash	$0.14	$0.28	~42%

请记住两个数字：在最耗费成本的输出 tokens 上，DeepSeek-V4-Pro 比 GPT-5.5 便宜 34 倍，比 Claude Opus 4.7 便宜 17 倍。在基准测试方面，根据 DataCamp 的对比，V4-Pro 在大多数公开的编程和推理评估中，与 GPT-5.5 的差距仅在 3 到 7 个百分点之内。

如果你的工作负载对延迟有一定容忍度，且在这个微小的质量区间内是可以接受的，那么迁移就是一个只有唯一答案的数学题。对于那些最后 5 分基准测试成绩至关重要的工作负载（Agent 工具可靠性、长期规划、硬核数学），V4-Pro 仍然可以作为推测解码（speculative-decoding）或批判模式（critic pattern）中的草稿模型，以降低成本。

如需更深入的正面评测，请参阅 DeepSeek V4 vs Claude Opus 4.5 for coding 以及 GLM-5 vs DeepSeek V3 vs GPT-5: speed, cost, and practical developer comparison。

大多数文章忽略的缓存命中视角

每个人都在引用 $0.87 的输出价格。很少有人解释 $0.003625 的缓存命中输入价格对系统设计意味着什么。

当请求的前缀与最近的先前请求（约 30 分钟窗口内）在字节级完全一致时，DeepSeek 的 prompt cache 就会命中。对于聊天 Agent 和检索流水线，前缀通常是你的 system prompt 加上工具定义和指令脚手架。这通常有 4,000 到 10,000 个 tokens 在不同轮次之间保持不变。

具体例子：假设你的助手使用 6,000 tokens 的 system prompt，每天处理 100,000 轮对话，平均用户消息为 200 输入 tokens，平均响应为 800 输出 tokens。

无缓存命中： 100,000 轮 × 6,200 输入 tokens × $0.435 / 1,000,000 = 仅输入成本每天 $269.70。
90% 的 system prompt tokens 命中缓存： 同样的 100,000 轮，支付 200 × $0.435 加上 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) 每百万 tokens。计算结果约为 每天 $32。输入成本降低了 88%。

这绝不是舍入误差。这是模型从“奢侈品”变为“可持续支出”的分水岭。有关前缀缓存如何在不同供应商之间运作的更多信息，我们的 prompt caching 深度解析介绍了其机制。

在实际 Agent 中获取缓存命中的三种模式：

固定前缀（Pin the prefix）： 将 system prompt、工具 schema 和 few-shot 示例放在每个请求开头的单个块中。不要在前缀中插入特定于会话的文本。
对动态上下文进行排序或哈希： 如果你附加了检索到的片段，请对它们进行稳定排序，或者对请求进行哈希处理，并将相同的哈希路由到同一个节点。微小的指纹偏移都会导致缓存失效。
运行预热调用： 在 Agent 启动时，发送一个带有完整前缀的请求，以便在用户流量到达之前将其存入供应商的缓存中。

你本周应该做什么

迁移决策并不是非黑即白的。它取决于你运行的是哪种 LLM 工作负载。一个五步框架：

1. 衡量当前的输出/输入比。 如果你 80% 的 token 预算花在输出上（任何 Agent、代码生成器或内容工具），V4-Pro 带来的节省将非常巨大。如果你 80% 花在输入上（长文档 RAG），一旦缓存命中生效，节省虽然较小但依然可观。

2. 在真实工作负载上运行 100 个样本评估。 不要迷信公开基准测试。从生产流量中提取 100 条追踪记录，使用相同的 prompt 在 V4-Pro 和你当前的模型上运行，并使用你自己的标准进行评分。大多数团队发现 V4-Pro 对于 70% 到 85% 的流量来说已经“足够好”。

3. 按路由进行模式匹配。 将那 70% 到 85% 的流量路由到 V4-Pro，并在处理极端难题时保留你的高级模型。仅这一项改变就能在几乎不降低质量的情况下节省 70% 以上的成本。

4. 锁定缓存前缀。 审计你的 system prompts。任何随请求变化的内容（时间戳、用户 ID、会话 ID）都应该放在用户消息中，而不是 system prompt 中。移动它们。

5. 在上线前设置回归测试。 这正是 Apifox 的用武之地。记录当前模型的“黄金响应”，然后针对 V4-Pro 重放相同的请求并对比输出。Apifox 的 JSON schema 验证可以在 tool-call 格式发生偏移并进入生产环境之前捕获它们。下载 Apifox，导入你的 OpenAI 兼容集合，将 Base URL 更改为 https://api.deepseek.com，你可以在不到十分钟的时间内运行并排冒烟测试。

有关 V4-Pro 端点格式的实操指南，请参阅 How to use the DeepSeek V4 API。

V4-Pro 与 2026 年其他降价举措的对比

DeepSeek 并不是唯一降价的实验室。2026 年的 LLM 市场正处于明显的利润压缩阶段：

OpenAI O3 在今年早些时候降价 80%。请参阅我们的 O3 定价解析了解计算过程。
Kimi K2 进行了激进的重新定价，以与 DeepSeek 的 V3 层级竞争。Kimi K2 API 定价涵盖了详细信息。
Anthropic Claude 在 Opus 定价上保持不变，但推出了更便宜的 Haiku 和 Sonnet 层级。完整的 Claude API 成本分析介绍了各层级的适用场景。

V4-Pro 的降价是今年最激进的，因为它针对的是前沿能力带，而不是廉价层级。这就是为什么这次公告重塑了市场，而其他公告没有。