DeepSeek V4-Pro 永久降价 75%:开发者深度解析

DeepSeek 宣布 V4-Pro 的 75% 促销折扣转为永久价格,输出价格仅为 GPT-5.5 的 1/34。本文深度解析了此次降价对 API 成本、Prompt 缓存优化及模型选型的影响,并为开发者提供了迁移决策框架。

用 Apifox,节省研发团队的每一分钟

DeepSeek V4-Pro 永久降价 75%:开发者深度解析

免费使用 Apifox

相关推荐

最新文章

API

一体化协作平台

API 设计

API 文档

API 调试

自动化测试

API Mock

API Hub

立即体验 Apifox
目录

DeepSeek 将 2026 年 LLM 定价中最激进的临时折扣变成了“新常态”。5 月 22 日,团队宣布原定于 2026 年 5 月 31 日 15:59 UTC 到期的 DeepSeek-V4-Pro 七五折优惠将不再回滚。促销价格正式成为永久挂牌价。输入(Input)价格降至每百万 tokens $0.435,输出(Output)降至 $0.87,缓存命中(cache hits)降至 $0.003625。下面,我们将详细分析哪些发生了变化,哪些保持不变,以及每位 API 开发者本周应该重新考虑的事情。

  • DeepSeek-V4-Pro API 定价现已永久固定为原挂牌价的 1/4:输入 $0.435/MTok,输出 $0.87/MTok,缓存命中 $0.003625/MTok。
  • 原定于 2026 年 5 月 31 日结束的 75% 促销折扣现已成为常规费率。不回滚,无意外到期。
  • V4-Pro 的输出价格现在比 GPT-5.5 便宜约 34 倍,同时在大多数编程和推理基准测试中达到了 GPT-5.5 约 95% 的水平。
  • 缓存命中价格为 $0.003625/MTok,在标题降价的基础上又削减了 90%,这是一个被低估的细节。长 system prompts 在前缀部分现在几乎是免费的。
  • 如果你上个季度是针对 GPT-5.5 或 Claude Opus 4.7 定价 AI 功能的,那么本周的构建成本逻辑(build math)已经发生了变化。

为什么这很重要

LLM 的定价通常只朝一个方向移动:缓慢下降,并带有大量脚注。DeepSeek 跳过了脚注。团队在 5 月份运行了激进的促销,观察到开发者流量攀升,并决定锁定价格,而不是让其反弹。这是一个关于中国前沿模型经济走向的结构性信号,而非一次性噱头。

如果你正在交付任何在核心路径中调用 LLM 的产品(自动补全、检索增强聊天、代码审查、Agent 循环),每百万输出 tokens $3.48 和 $0.87 之间的差距将直接体现在你本月的账单上。假设每天交付 5000 万个输出 tokens(对于任何拥有一定用户量的 Agent 来说,这是一个现实的负载),新价格将使你每月的 LLM 账单从大约 $5,200 降至 $1,300。这省下的是一个销售人员的薪水,或者一整年的 GPU 算力额度。

正在基于 DeepSeek 构建应用?Apifox 允许你在单个工作空间中生成、测试和监控 V4-Pro API 调用,包括 streaming、tool calls 和 JSON schema 验证。下载 Apifox,你可以在不到一分钟的时间内克隆本文中的请求。

在本文的其余部分,你将看到完整的全新价格表、与 GPT-5.5 和 Claude Opus 4.7 的正面交锋、大多数文章忽略的缓存命中计算、三个真实的账单场景,以及关于今天是否迁移的五步决策框架。

变化内容:公告解读

DeepSeek 的官方定价通知很短,但每一行都改变了一个数字。有三个事实值得关注:

  1. 75% 的折扣是永久性的。 原定于 2026 年 5 月 31 日 15:59 UTC 结束的促销本应在 6 月 1 日恢复到发布时的挂牌价。现在不会了。促销费率即为新的挂牌费率,追溯至发布之日并无限期延续。
  2. 降价仅适用于 V4-Pro。 DeepSeek-V4-Flash 的价格为 $0.14 / $0.28 每百万 tokens,已经非常便宜。此次降价的是前沿级别的模型 V4-Pro。关于 Flash 与 Pro 的区别,请参阅 What is DeepSeek V4。
  3. 缓存命中定价降至发布时的 1/10,自 2026 年 4 月 26 日 12:15 UTC 起生效。 这是独立于 75% 标题降价之外的另一项变动,且两者叠加。结果是:缓存命中价格为 $0.003625/MTok,这是 2026 年市场上最低的第一方前沿模型缓存价格。

综合来看,该公告表明:DeepSeek 愿意吸收核心模型的毛利以留住开发者的注意力。缓存命中的举措则表明:他们希望你专门在 V4-Pro 上构建 Agent 和长上下文工具。这两项举措都指向同一个策略:先赢得推理工作负载,稍后再实现平台变现。

全新永久价格表

每 100 万 tokens 的定价(美元),立即生效且永久化:

Token 类型 原挂牌价 现永久价 降幅
输入 (cache miss) $1.74 $0.435 75%
输入 (cache hit) $0.0145 $0.003625 75%
输出 $3.48 $0.87 75%

表格中隐藏的几个要点:

  • 输出价格的下降对账单影响最大,因为在模型进行推理或编写代码的任何 Agent 循环中,输出 tokens 都占据主导地位。
  • 缓存命中行看起来很小,是因为绝对数字极小。节省的关键在于比例。输入未命中与输入命中的比例约为 120:1。一个设计良好的 system prompt 如果能达到 90% 的缓存命中率,那么输入成本几乎可以忽略不计,这是任何拥有稳定脚手架的 Agent 的关键突破。
  • 这些费率仅适用于 API。DeepSeek 的网页端聊天对个人用户仍然免费。

有关 V4 定价层级和 Flash 与 Pro 权衡的更深入历史背景,请参阅我们的 DeepSeek V4 API Pricing 参考指南。

V4-Pro 与 GPT-5.5、Claude Opus 4.7 及 Gemini 3.5 Flash 的对比

有趣的对比不是 V4-Pro 与过去的自己,而是与目前市面上其他前沿模型的对比。

模型 输入 ($/MTok) 输出 ($/MTok) SWE-bench Pro
DeepSeek-V4-Pro (新) $0.435 $0.87 55.4%
GPT-5.5 $5.00 $30.00 58.6%
Claude Opus 4.7 $3.00 $15.00 ~62%
Gemini 3.5 Flash ~$1.50 ~$9.00 ~48%
DeepSeek-V4-Flash $0.14 $0.28 ~42%

请记住两个数字:在最耗费成本的输出 tokens 上,DeepSeek-V4-Pro 比 GPT-5.5 便宜 34 倍,比 Claude Opus 4.7 便宜 17 倍。在基准测试方面,根据 DataCamp 的对比,V4-Pro 在大多数公开的编程和推理评估中,与 GPT-5.5 的差距仅在 3 到 7 个百分点之内。

如果你的工作负载对延迟有一定容忍度,且在这个微小的质量区间内是可以接受的,那么迁移就是一个只有唯一答案的数学题。对于那些最后 5 分基准测试成绩至关重要的工作负载(Agent 工具可靠性、长期规划、硬核数学),V4-Pro 仍然可以作为推测解码(speculative-decoding)或批判模式(critic pattern)中的草稿模型,以降低成本。

如需更深入的正面评测,请参阅 DeepSeek V4 vs Claude Opus 4.5 for coding 以及 GLM-5 vs DeepSeek V3 vs GPT-5: speed, cost, and practical developer comparison。

大多数文章忽略的缓存命中视角

每个人都在引用 $0.87 的输出价格。很少有人解释 $0.003625 的缓存命中输入价格对系统设计意味着什么。

当请求的前缀与最近的先前请求(约 30 分钟窗口内)在字节级完全一致时,DeepSeek 的 prompt cache 就会命中。对于聊天 Agent 和检索流水线,前缀通常是你的 system prompt 加上工具定义和指令脚手架。这通常有 4,000 到 10,000 个 tokens 在不同轮次之间保持不变。

具体例子:假设你的助手使用 6,000 tokens 的 system prompt,每天处理 100,000 轮对话,平均用户消息为 200 输入 tokens,平均响应为 800 输出 tokens。

  • 无缓存命中: 100,000 轮 × 6,200 输入 tokens × $0.435 / 1,000,000 = 仅输入成本每天 $269.70
  • 90% 的 system prompt tokens 命中缓存: 同样的 100,000 轮,支付 200 × $0.435 加上 6,000 × (0.9 × $0.003625 + 0.1 × $0.435) 每百万 tokens。计算结果约为 每天 $32。输入成本降低了 88%。

这绝不是舍入误差。这是模型从“奢侈品”变为“可持续支出”的分水岭。有关前缀缓存如何在不同供应商之间运作的更多信息,我们的 prompt caching 深度解析 介绍了其机制。

在实际 Agent 中获取缓存命中的三种模式:

  • 固定前缀(Pin the prefix): 将 system prompt、工具 schema 和 few-shot 示例放在每个请求开头的单个块中。不要在前缀中插入特定于会话的文本。
  • 对动态上下文进行排序或哈希: 如果你附加了检索到的片段,请对它们进行稳定排序,或者对请求进行哈希处理,并将相同的哈希路由到同一个节点。微小的指纹偏移都会导致缓存失效。
  • 运行预热调用: 在 Agent 启动时,发送一个带有完整前缀的请求,以便在用户流量到达之前将其存入供应商的缓存中。

你本周应该做什么

迁移决策并不是非黑即白的。它取决于你运行的是哪种 LLM 工作负载。一个五步框架:

1. 衡量当前的输出/输入比。 如果你 80% 的 token 预算花在输出上(任何 Agent、代码生成器或内容工具),V4-Pro 带来的节省将非常巨大。如果你 80% 花在输入上(长文档 RAG),一旦缓存命中生效,节省虽然较小但依然可观。

2. 在真实工作负载上运行 100 个样本评估。 不要迷信公开基准测试。从生产流量中提取 100 条追踪记录,使用相同的 prompt 在 V4-Pro 和你当前的模型上运行,并使用你自己的标准进行评分。大多数团队发现 V4-Pro 对于 70% 到 85% 的流量来说已经“足够好”。

3. 按路由进行模式匹配。 将那 70% 到 85% 的流量路由到 V4-Pro,并在处理极端难题时保留你的高级模型。仅这一项改变就能在几乎不降低质量的情况下节省 70% 以上的成本。

4. 锁定缓存前缀。 审计你的 system prompts。任何随请求变化的内容(时间戳、用户 ID、会话 ID)都应该放在用户消息中,而不是 system prompt 中。移动它们。

5. 在上线前设置回归测试。 这正是 Apifox 的用武之地。记录当前模型的“黄金响应”,然后针对 V4-Pro 重放相同的请求并对比输出。Apifox 的 JSON schema 验证可以在 tool-call 格式发生偏移并进入生产环境之前捕获它们。下载 Apifox,导入你的 OpenAI 兼容集合,将 Base URL 更改为 https://api.deepseek.com,你可以在不到十分钟的时间内运行并排冒烟测试。

有关 V4-Pro 端点格式的实操指南,请参阅 How to use the DeepSeek V4 API。

V4-Pro 与 2026 年其他降价举措的对比

DeepSeek 并不是唯一降价的实验室。2026 年的 LLM 市场正处于明显的利润压缩阶段:

  • OpenAI O3 在今年早些时候降价 80%。请参阅我们的 O3 定价解析 了解计算过程。
  • Kimi K2 进行了激进的重新定价,以与 DeepSeek 的 V3 层级竞争。Kimi K2 API 定价 涵盖了详细信息。
  • Anthropic Claude 在 Opus 定价上保持不变,但推出了更便宜的 Haiku 和 Sonnet 层级。完整的 Claude API 成本分析 介绍了各层级的适用场景。

V4-Pro 的降价是今年最激进的,因为它针对的是前沿能力带,而不是廉价层级。这就是为什么这次公告重塑了市场,而其他公告没有。

构建成本逻辑已改变

DeepSeek 不仅仅是降低了价格,他们重画了曲线。低于 1 美元的输出定价拥有前沿能力现在是基准,而不是特例,市场的其他参与者将会做出回应。如果你一直因为成本原因推迟某项 LLM 功能,你上个季度估算的 2026 年预算可能比实际需求高出了 4 倍。

接下来的三个步骤:

  • 根据上述框架审计你排名前三的 LLM 工作负载,并选择一个在本周进行迁移。
  • 锁定你的缓存前缀。无论你使用哪种模型,这都是一个低成本的赢点。
  • 建立 Apifox 回归测试套件,这样下一次降价(肯定还会有的)发生时,你只需要几个小时而不是几周就能完成评估。

开发必备:API 全流程管理神器 Apifox

介绍完上文的内容,我想额外介绍一个对开发者同样重要的效率工具 —— Apifox。作为一个集 API 文档、调试、设计、测试、Mock、自动化测试于一体的工具,Apifox 是目前提升研发效率的首选。

如果你正在开发项目,不妨试试其极其友好的界面设计,它完全兼容 Postman 和 Swagger 数据格式,导入数据非常方便,,即使是新手也能很快上手,点击这里即可注册使用

Apifox

值得一提的是,除了个人和常规团队使用,针对有高安全合规要求、或需要在内网环境协作的企业,Apifox 还提供了深度定制的私有化部署方案

获取专属报价与部署方案

icon 详细的私有化部署系统架构与安全白皮书
icon 针对您公司规模的专属报价单
icon 免费的 1v1 专属产品演示 (Demo) 机会
获取部署方案
* 提交后,我们的客户经理将在 1 个工作日内与您联系
林俊锋 企业微信
@Apifox 专属顾问
扫码备注: 私有化 + 公司名