DeepSeek 将 2026 年 LLM 定价中最激进的临时折扣变成了“新常态”。5 月 22 日,团队宣布原定于 2026 年 5 月 31 日 15:59 UTC 到期的 DeepSeek-V4-Pro 七五折优惠将不再回滚。促销价格正式成为永久挂牌价。输入(Input)价格降至每百万 tokens $0.435,输出(Output)降至 $0.87,缓存命中(cache hits)降至 $0.003625。下面,我们将详细分析哪些发生了变化,哪些保持不变,以及每位 API 开发者本周应该重新考虑的事情。
- DeepSeek-V4-Pro API 定价现已永久固定为原挂牌价的 1/4:输入 $0.435/MTok,输出 $0.87/MTok,缓存命中 $0.003625/MTok。
- 原定于 2026 年 5 月 31 日结束的 75% 促销折扣现已成为常规费率。不回滚,无意外到期。
- V4-Pro 的输出价格现在比 GPT-5.5 便宜约 34 倍,同时在大多数编程和推理基准测试中达到了 GPT-5.5 约 95% 的水平。
- 缓存命中价格为 $0.003625/MTok,在标题降价的基础上又削减了 90%,这是一个被低估的细节。长 system prompts 在前缀部分现在几乎是免费的。
- 如果你上个季度是针对 GPT-5.5 或 Claude Opus 4.7 定价 AI 功能的,那么本周的构建成本逻辑(build math)已经发生了变化。
为什么这很重要
LLM 的定价通常只朝一个方向移动:缓慢下降,并带有大量脚注。DeepSeek 跳过了脚注。团队在 5 月份运行了激进的促销,观察到开发者流量攀升,并决定锁定价格,而不是让其反弹。这是一个关于中国前沿模型经济走向的结构性信号,而非一次性噱头。
如果你正在交付任何在核心路径中调用 LLM 的产品(自动补全、检索增强聊天、代码审查、Agent 循环),每百万输出 tokens $3.48 和 $0.87 之间的差距将直接体现在你本月的账单上。假设每天交付 5000 万个输出 tokens(对于任何拥有一定用户量的 Agent 来说,这是一个现实的负载),新价格将使你每月的 LLM 账单从大约 $5,200 降至 $1,300。这省下的是一个销售人员的薪水,或者一整年的 GPU 算力额度。
正在基于 DeepSeek 构建应用?Apifox 允许你在单个工作空间中生成、测试和监控 V4-Pro API 调用,包括 streaming、tool calls 和 JSON schema 验证。下载 Apifox,你可以在不到一分钟的时间内克隆本文中的请求。
在本文的其余部分,你将看到完整的全新价格表、与 GPT-5.5 和 Claude Opus 4.7 的正面交锋、大多数文章忽略的缓存命中计算、三个真实的账单场景,以及关于今天是否迁移的五步决策框架。
变化内容:公告解读
DeepSeek 的官方定价通知很短,但每一行都改变了一个数字。有三个事实值得关注:
- 75% 的折扣是永久性的。 原定于 2026 年 5 月 31 日 15:59 UTC 结束的促销本应在 6 月 1 日恢复到发布时的挂牌价。现在不会了。促销费率即为新的挂牌费率,追溯至发布之日并无限期延续。
- 降价仅适用于 V4-Pro。 DeepSeek-V4-Flash 的价格为 $0.14 / $0.28 每百万 tokens,已经非常便宜。此次降价的是前沿级别的模型 V4-Pro。关于 Flash 与 Pro 的区别,请参阅 What is DeepSeek V4。
- 缓存命中定价降至发布时的 1/10,自 2026 年 4 月 26 日 12:15 UTC 起生效。 这是独立于 75% 标题降价之外的另一项变动,且两者叠加。结果是:缓存命中价格为 $0.003625/MTok,这是 2026 年市场上最低的第一方前沿模型缓存价格。
综合来看,该公告表明:DeepSeek 愿意吸收核心模型的毛利以留住开发者的注意力。缓存命中的举措则表明:他们希望你专门在 V4-Pro 上构建 Agent 和长上下文工具。这两项举措都指向同一个策略:先赢得推理工作负载,稍后再实现平台变现。
全新永久价格表
每 100 万 tokens 的定价(美元),立即生效且永久化:
| Token 类型 | 原挂牌价 | 现永久价 | 降幅 |
|---|---|---|---|
| 输入 (cache miss) | $1.74 | $0.435 | 75% |
| 输入 (cache hit) | $0.0145 | $0.003625 | 75% |
| 输出 | $3.48 | $0.87 | 75% |
表格中隐藏的几个要点:
- 输出价格的下降对账单影响最大,因为在模型进行推理或编写代码的任何 Agent 循环中,输出 tokens 都占据主导地位。
- 缓存命中行看起来很小,是因为绝对数字极小。节省的关键在于比例。输入未命中与输入命中的比例约为 120:1。一个设计良好的 system prompt 如果能达到 90% 的缓存命中率,那么输入成本几乎可以忽略不计,这是任何拥有稳定脚手架的 Agent 的关键突破。
- 这些费率仅适用于 API。DeepSeek 的网页端聊天对个人用户仍然免费。
有关 V4 定价层级和 Flash 与 Pro 权衡的更深入历史背景,请参阅我们的 DeepSeek V4 API Pricing 参考指南。
V4-Pro 与 GPT-5.5、Claude Opus 4.7 及 Gemini 3.5 Flash 的对比
有趣的对比不是 V4-Pro 与过去的自己,而是与目前市面上其他前沿模型的对比。
| 模型 | 输入 ($/MTok) | 输出 ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro (新) | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
请记住两个数字:在最耗费成本的输出 tokens 上,DeepSeek-V4-Pro 比 GPT-5.5 便宜 34 倍,比 Claude Opus 4.7 便宜 17 倍。在基准测试方面,根据 DataCamp 的对比,V4-Pro 在大多数公开的编程和推理评估中,与 GPT-5.5 的差距仅在 3 到 7 个百分点之内。
如果你的工作负载对延迟有一定容忍度,且在这个微小的质量区间内是可以接受的,那么迁移就是一个只有唯一答案的数学题。对于那些最后 5 分基准测试成绩至关重要的工作负载(Agent 工具可靠性、长期规划、硬核数学),V4-Pro 仍然可以作为推测解码(speculative-decoding)或批判模式(critic pattern)中的草稿模型,以降低成本。
如需更深入的正面评测,请参阅 DeepSeek V4 vs Claude Opus 4.5 for coding 以及 GLM-5 vs DeepSeek V3 vs GPT-5: speed, cost, and practical developer comparison。
大多数文章忽略的缓存命中视角
每个人都在引用 $0.87 的输出价格。很少有人解释 $0.003625 的缓存命中输入价格对系统设计意味着什么。
当请求的前缀与最近的先前请求(约 30 分钟窗口内)在字节级完全一致时,DeepSeek 的 prompt cache 就会命中。对于聊天 Agent 和检索流水线,前缀通常是你的 system prompt 加上工具定义和指令脚手架。这通常有 4,000 到 10,000 个 tokens 在不同轮次之间保持不变。
具体例子:假设你的助手使用 6,000 tokens 的 system prompt,每天处理 100,000 轮对话,平均用户消息为 200 输入 tokens,平均响应为 800 输出 tokens。
- 无缓存命中: 100,000 轮 × 6,200 输入 tokens × $0.435 / 1,000,000 = 仅输入成本每天 $269.70。
- 90% 的 system prompt tokens 命中缓存: 同样的 100,000 轮,支付 200 × $0.435 加上 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) 每百万 tokens。计算结果约为 每天 $32。输入成本降低了 88%。
这绝不是舍入误差。这是模型从“奢侈品”变为“可持续支出”的分水岭。有关前缀缓存如何在不同供应商之间运作的更多信息,我们的 prompt caching 深度解析 介绍了其机制。
在实际 Agent 中获取缓存命中的三种模式:
- 固定前缀(Pin the prefix): 将 system prompt、工具 schema 和 few-shot 示例放在每个请求开头的单个块中。不要在前缀中插入特定于会话的文本。
- 对动态上下文进行排序或哈希: 如果你附加了检索到的片段,请对它们进行稳定排序,或者对请求进行哈希处理,并将相同的哈希路由到同一个节点。微小的指纹偏移都会导致缓存失效。
- 运行预热调用: 在 Agent 启动时,发送一个带有完整前缀的请求,以便在用户流量到达之前将其存入供应商的缓存中。
你本周应该做什么
迁移决策并不是非黑即白的。它取决于你运行的是哪种 LLM 工作负载。一个五步框架:
1. 衡量当前的输出/输入比。 如果你 80% 的 token 预算花在输出上(任何 Agent、代码生成器或内容工具),V4-Pro 带来的节省将非常巨大。如果你 80% 花在输入上(长文档 RAG),一旦缓存命中生效,节省虽然较小但依然可观。
2. 在真实工作负载上运行 100 个样本评估。 不要迷信公开基准测试。从生产流量中提取 100 条追踪记录,使用相同的 prompt 在 V4-Pro 和你当前的模型上运行,并使用你自己的标准进行评分。大多数团队发现 V4-Pro 对于 70% 到 85% 的流量来说已经“足够好”。
3. 按路由进行模式匹配。 将那 70% 到 85% 的流量路由到 V4-Pro,并在处理极端难题时保留你的高级模型。仅这一项改变就能在几乎不降低质量的情况下节省 70% 以上的成本。
4. 锁定缓存前缀。 审计你的 system prompts。任何随请求变化的内容(时间戳、用户 ID、会话 ID)都应该放在用户消息中,而不是 system prompt 中。移动它们。
5. 在上线前设置回归测试。 这正是 Apifox 的用武之地。记录当前模型的“黄金响应”,然后针对 V4-Pro 重放相同的请求并对比输出。Apifox 的 JSON schema 验证可以在 tool-call 格式发生偏移并进入生产环境之前捕获它们。下载 Apifox,导入你的 OpenAI 兼容集合,将 Base URL 更改为 https://api.deepseek.com,你可以在不到十分钟的时间内运行并排冒烟测试。
有关 V4-Pro 端点格式的实操指南,请参阅 How to use the DeepSeek V4 API。
V4-Pro 与 2026 年其他降价举措的对比
DeepSeek 并不是唯一降价的实验室。2026 年的 LLM 市场正处于明显的利润压缩阶段:
- OpenAI O3 在今年早些时候降价 80%。请参阅我们的 O3 定价解析 了解计算过程。
- Kimi K2 进行了激进的重新定价,以与 DeepSeek 的 V3 层级竞争。Kimi K2 API 定价 涵盖了详细信息。
- Anthropic Claude 在 Opus 定价上保持不变,但推出了更便宜的 Haiku 和 Sonnet 层级。完整的 Claude API 成本分析 介绍了各层级的适用场景。
V4-Pro 的降价是今年最激进的,因为它针对的是前沿能力带,而不是廉价层级。这就是为什么这次公告重塑了市场,而其他公告没有。
构建成本逻辑已改变
DeepSeek 不仅仅是降低了价格,他们重画了曲线。低于 1 美元的输出定价拥有前沿能力现在是基准,而不是特例,市场的其他参与者将会做出回应。如果你一直因为成本原因推迟某项 LLM 功能,你上个季度估算的 2026 年预算可能比实际需求高出了 4 倍。
接下来的三个步骤:
- 根据上述框架审计你排名前三的 LLM 工作负载,并选择一个在本周进行迁移。
- 锁定你的缓存前缀。无论你使用哪种模型,这都是一个低成本的赢点。
- 建立 Apifox 回归测试套件,这样下一次降价(肯定还会有的)发生时,你只需要几个小时而不是几周就能完成评估。
开发必备:API 全流程管理神器 Apifox
介绍完上文的内容,我想额外介绍一个对开发者同样重要的效率工具 —— Apifox。作为一个集 API 文档、调试、设计、测试、Mock、自动化测试于一体的工具,Apifox 是目前提升研发效率的首选。
如果你正在开发项目,不妨试试其极其友好的界面设计,它完全兼容 Postman 和 Swagger 数据格式,导入数据非常方便,,即使是新手也能很快上手,点击这里即可注册使用。

值得一提的是,除了个人和常规团队使用,针对有高安全合规要求、或需要在内网环境协作的企业,Apifox 还提供了深度定制的私有化部署方案。
获取专属报价与部署方案
详细的私有化部署系统架构与安全白皮书
针对您公司规模的专属报价单
免费的 1v1 专属产品演示 (Demo) 机会