2026 年上半年,中国各大实验室六次下调 LLM API 价格,其中三次被宣布为永久性降价。DeepSeek V4-Pro 目前每百万输出 token 的成本仅为 0.87 美元。小米 MiMo V2.5 刚刚将其长上下文档位的输出价格统一为 3 美元。阿里巴巴的 Qwen3 Max 售价为 3.90 美元。月之暗面(Moonshot)的 Kimi K2.6 则以 0.07 美元的缓存命中(cache-hit)保底价领跑。智谱的 GLM-5 输出价格定在 3.20 美元。以下是 2026 年 5 月中国五大前沿 API 的详细价格细分、能力说明以及文末的采购矩阵,旨在帮助您为工作负载选择最合适的模型。
核心摘要 (TL;DR)
- 单 token 最便宜(输出): DeepSeek V4-Pro,价格为 $0.87/MTok。比 GPT-5.5 便宜约 34 倍。
- 1M 上下文最便宜: 小米 MiMo V2.5 Pro,输出价格为 $3/MTok,且不受输入长度影响。
- 通用生产环境最佳性价比: 阿里巴巴 Qwen3 Max,输出价格为 $3.90/MTok,支持 262K 上下文。
- 最低缓存命中保底价(适用于长系统提示词): 月之暗面 Kimi K2.6,缓存命中价格为 $0.07/MTok。
- 重推理工作负载: 智谱 GLM-5,输出价格为 $3.20/MTok,支持 200K 上下文,在结构化思维链(chain-of-thought)方面表现最强。
- 五家实验室都在进行价格竞争。其中三家(DeepSeek、MiMo、Kimi)已将 2026 年的降价定为永久性政策。
2026 年中国 LLM 价格战演变进程
这一趋势始于 2025 年第四季度,并在 2026 年第二季度加速。大致时间线如下:
- 2025 年 Q4: DeepSeek V3.2 发布,输入价格为 $0.28/MTok,比美国前沿模型价格低了一个数量级。Kimi K2.6 随后推出了分层上下文感知定价,以及行业最低的 $0.07/MTok 缓存命中率。
- 2026 年 3 月: 小米在 OpenRouter 上推出了 MiMo V2-Pro,价格极具竞争力,但仍基于分层定价。
- 2026 年 4 月: DeepSeek V4 发布,提供 75% 的促销折扣,原计划于 5 月 31 日到期。
- 2026 年 5 月 22 日: DeepSeek 宣布 75% 的折扣转为永久性。V4-Pro 价格无限期维持在 $0.435/$0.87。点击查看完整细分。
- 2026 年 5 月 27 日: 小米将 MiMo V2.5 的定价永久固定在 $1/$3,取消了长上下文倍率。点击查看更多关于 MiMo 降价的信息。
这些降价并非随机行为。每个实验室都在针对特定的竞争差距。DeepSeek 追求极致的单 token 成本。MiMo 针对的是其他模型因价格过高而无法企及的长上下文工作负载。Qwen 和 GLM 则维持中端价格,转而在能力上进行竞争。Kimi 则通过缓存命中保底价在智能体(agent)和编程工作流中展开竞争。
一览表:2024 年 5 月五大中国 LLM API
| 模型 | 输入 ($/MTok) | 输出 ($/MTok) | 缓存命中 | 上下文 | 擅长领域 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | 最廉价 token、编程 |
| 小米 MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | 长文档 RAG、代码库智能体 |
| 阿里巴巴 Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | 生产环境平衡性 |
| 月之暗面 Kimi K2.6 | $0.16–$2.00 (分层) | ~$2.50 | $0.07 | 128K | 长系统提示词、编程智能体 |
| 智谱 GLM-5 | $1.00 | $3.20 | (由供应商定义) | 200K | 结构化推理 |
表格中的一些细节解读:
- DeepSeek 和 MiMo 采用统一费率。 该集合中的其他实验室仍在使用某种形式的分层定价或上下文倍率。统一费率使生产能力的规划变得可预测,而分层定价可能会在长上下文使用较多的月份给您带来“惊喜”。
- 缓存命中率差异巨大。 Kimi K2.6 的 $0.07 和 DeepSeek V4-Pro 的 $0.003625 是两个极端。对于任何具有稳定系统提示词的智能体,您应该根据这些费率进行基准测试,而不是看缓存未命中的列表价格。机械原理请参阅我们的提示词缓存深度解析。
- 上下文窗口分化明显。 仅 MiMo V2.5 在低价档位提供了 1M token。该集合中第二大的是 Qwen3 Max,为 262K。如果您的工作负载需要超过 300K token,MiMo 是唯一选择。
下面:每个模型都有专门的章节介绍其定价、能力和胜出的工作负载。
DeepSeek:单 token 成本最低
模型: V4-Pro(输入 $0.435 / 输出 $0.87 / 缓存命中 $0.003625,128K 上下文),V4-Flash($0.14 / $0.28)。
DeepSeek 的 V4-Pro 是中国前沿级模型的价格底线。5 月 22 日的永久降价将输出 token 价格定为 $0.87/MTok,比 GPT-5.5 便宜约 34 倍,比 Claude Opus 4.7 便宜 17 倍。$0.003625/MTok 的缓存命中率是所有主流实验室中最低的一手价格。数据已根据 DeepSeek 官方定价页面核实。
V4-Pro 的胜出场景:
- 输出密集型工作负载(代码生成、智能体链、内容工具),其中 70% 以上的 token 预算花费在输出上。
- 任何具有稳定的 5K 到 10K token 系统提示词的应用。缓存命中使有效输入成本趋近于零。
- 对成本敏感的生产环境,且您可以接受与 GPT-5.5 相比 3 到 7 个百分点的基准测试差距。
不适用的场景:
- 长文档工作负载(>128K 上下文)。即便单 token 费率更高,MiMo V2.5 在绝对意义上也是更便宜的选择,因为 DeepSeek 无法容纳此类提示词。
- 对延迟要求极高的实时聊天。V4-Pro 是一个思考型模型,首个 token 返回时间(TTFT)在 600 到 900 毫秒之间。
深度报道:DeepSeek V4-Pro 永久降价,什么是 DeepSeek V4,如何使用 DeepSeek V4 API。
小米 MiMo:最便宜的 1M 上下文方案
模型: MiMo V2.5 Pro(输入 $1.00 / 输出 $3.00 / 缓存 $0.20,1M 上下文),MiMo V2 Flash(约 $0.10 / 约 $0.40,256K 上下文)。
小米 5 月 27 日的永久降价统一了 MiMo V2.5 在不同上下文窗口下的定价。旧的长上下文分层(对超过 256K 的输入 token 收取高额倍率)已成为历史。无论您发送 5K 还是 950K token,新定价均适用 $1/$3 的费率。官方价格更新通知将此次降价标记为“永久性”。
V2.5 Pro 的胜出场景:
- 长文档 RAG、全库代码分析、多文档摘要,以及任何适合 300K 到 1M token 上下文的工作负载。
- 高吞吐量的文档处理,其中定价的可预测性比绝对底价更重要。
不适用的场景:
- 短提示词聊天。在 DeepSeek 能够处理的任何上下文长度下,V2.5 Pro 都比 DeepSeek V4-Pro 更贵。
- 延迟敏感型工作负载。对于亚秒级响应预算,存在更快的中国模型。
1M 上下文窗口加上极具竞争力的缓存费率,使 MiMo 在市场上占据了结构性的独特地位。在 DeepSeek 将上下文扩展到 128K 以上或阿里巴巴统一 Qwen 定价之前,MiMo 统治着“廉价且长”的象限。
深度报道:2026 年使用小米 MiMo V2.5 的成本是多少,MiMo V2-Pro & Omni 定价及 API 使用指南,小米 MiMo Orbit 免费 100T token 计划。
阿里巴巴 Qwen:生产环境的主力军
模型: Qwen3 Max(输入 $0.78 / 输出 $3.90 / 缓存 $0.156,262K 上下文)。更新的 Qwen 3.7 Max 输入价格为 $2.50/MTok,支持 1M 上下文,目前处于早期推广阶段。费率已根据 pricepertoken 的 Qwen3 Max 表格核实。
Qwen3 Max 是阿里巴巴的旗舰模型,也是国际生产环境中使用最广泛的中国模型。它的定价具有竞争力,但并非地板价:输入成本是 DeepSeek V4-Pro 的 1.8 倍,输出成本是 4.5 倍。溢价换取的是最广泛的工具生态系统(兼容 Anthropic 协议、OpenAI 兼容接口、阿里云企业级托管)以及能够处理大多数企业文档工作负载的 262K 上下文窗口。
Qwen3 Max 的胜出场景:
- 多语言生产环境。Qwen 的训练语料库严重向中文和亚洲语言倾斜,使其成为该集合中非英语表现最强的模型。
- 企业合规场景。阿里巴巴的企业级 SLA 和云区域选项是所有中国实验室中最成熟的。
- 需要 200K 到 262K 上下文,但不需要 MiMo 那种超高质量档位的工作负载。
不适用的场景:
- 成本敏感的输出密集型工作负载。在 $3.90/MTok 的输出价格下,您支付的是 DeepSeek 费率的 4.5 倍。如果您的工作负载可以容忍 DeepSeek 的质量,请切换。
深度报道:Qwen 3 对标 OpenAI 与 DeepSeek:API 开发者的深度技术对比。
月之暗面 Kimi:编程专家
模型: Kimi K2.6 采用上下文分层输入定价(在 8K、32K、64K 和 128K 档位间为 $0.16 到 $2.00/MTok),缓存命中保底价为 $0.07/MTok,中间档位的输出费率约为 $2.50/MTok。
Kimi K2.6 是缓存命中的冠军。其 $0.07/MTok 的命中费率是所有主流实验室中最低的一手数据。结合 Kimi 强大的工具调用(tool-calling)和长程智能体支持,K2.6 在需要在多轮对话中重复使用庞大系统提示词的工作流中胜出:如编程智能体、具有稳定人设提示词的客服聊天机器人、具有稳定上下文块的检索流水线。
K2.6 的胜出场景:
- 编程智能体(Claude Code 风格的工作流)。强大的工具调用格式合规性和最低的缓存命中保底价,使重复上下文模式几乎免费。
- 长程聊天会话,其中系统提示词和少样本(few-shot)示例是稳定的。
不适用的场景:
- 突发性、多样化的工作负载,其中前缀随每个请求而变化。分层输入价格意味着上下文长度的意外增加会导致账单激增。
- 可预测的预算编制。在 32K、64K 和 128K 输入 token 处的档位转换意味着,在长文本处理较多的日子里,同类查询的成本可能是短文本日子的 4 倍。
深度报道:Kimi K2 API 定价在 2026 年是否真的值得开发者追捧。
智谱 GLM:推理挑战者
模型: GLM-5(输入 $1.00 / 输出 $3.20,200K 上下文),GLM-5.1($0.98 / $3.08,200K 上下文)。费率已根据 Z.AI 官方定价概览核实。
智谱的 GLM-5 发布时价格比 GLM-4.7 提高了 30%(在竞相降价的市场中这是一个反其道而行之的举动),随后发布的 GLM-5.1 仅提供了微小折扣。这种定价反映了智谱的定位:不求最便宜,但在结构化推理和思维链任务中表现最强。
GLM-5 的胜出场景:
- 数学、形式推理、结构化思维链任务。GLM-5 在中国前沿模型的多个 GPQA 级基准测试中名列前茅。
- 错误答案成本远高于边际成本的工作负载(金融分析、法律摘要、科学推理)。
- 受益于清晰推理轨迹的多步智能体工作流。
不适用的场景:
- 成本敏感型应用。GLM-5 是该集合中输入和输出综合成本最高的选项。如果您优化的是原始成本,请看别处。
- 不需要强大推理能力的工作负载。对于直接的内容生成或摘要,GLM 的溢价并不划算。
深度报道:GLM-5 vs DeepSeek V3 vs GPT-5:速度、成本及开发者实用对比,GLM-5.1 vs Claude, GPT, Gemini, DeepSeek。
不同工作负载下的最廉价选择:采购矩阵
对于五种常见的生产工作负载,以下是胜出的模型:
| 工作负载 | 胜出者 | 理由 | | :--- | :--- | :--- | | 代码生成(输出密集型) | DeepSeek V4-Pro | $0.87/MTok 的输出价格无敌 | | 长文档 RAG(>300K 上下文) | 小米 MiMo V2.5 Pro | 唯一的统一费率 1M 上下文选项 | | 具有稳定系统提示词的编程智能体 | 月之暗面 Kimi K2.6 | $0.07/MTok 的缓存命中保底价 | | 多语言客户支持 | 阿里巴巴 Qwen3 Max | 最强的非英语表现 | | 数学、形式推理、结构化分析 | 智谱 GLM-5 | 最佳的思维链质量 |
三个值得关注的组合模式:
- 双模型路由。 许多生产团队将 70% 到 85% 的流量路由到 DeepSeek V4-Pro,并将次要模型用于处理疑难杂症。对于大多数工作负载,这样可以节省大量成本,且质量损失微乎其微。
- 长上下文细分。 如果您的工作负载分为短上下文和长上下文,请将短文本路由到 DeepSeek,长文本路由到 MiMo。统一计费的麻烦是现实存在的,但成本套利空间大到无法忽视。
- 缓存前缀整合。 无论选择哪种模型,请审计您的系统提示词。缓存命中是无论更换哪种模型都能获益的廉价方案。
质量与基准测试说明
关于质量的一点说明,因为如果模型无法胜任工作,定价就毫无意义。
根据 Artificial Analysis 的数据,本次对比中的五个模型在大多数公开基准测试中的差距都在 5 到 10 个百分点以内。有趣的细微差别在于:
- DeepSeek V4-Pro: 在编程(SWE-bench Pro 约 55%)和推理(GPQA 约 90%)方面表现强劲。在长程智能体任务上与 GPT-5.5 仍有微小差距。
- MiMo V2.5 Pro: 长上下文检索能力强(800K 时“大海捞针”准确率 >95%),编程能力处于中游。
- Qwen3 Max: 最佳的非英语表现,强大的通用生产质量。
- Kimi K2.6: 最强的工具调用格式合规性,特别是并行工具调用。
- GLM-5: 该集合中最佳的思维链推理质量。
在正式投入使用前,请先进行 100 个样本的评估。公开基准测试在方向上有参考价值,但真正重要的是在您实际流量下的表现。
使用 Apifox 测试所有五款模型
多模型生产部署需要多模型测试框架。Apifox 可以在一个工作区内处理所有五款中国 API,因为这五款模型都接受 OpenAI Chat Completions 请求体,仅有细微的兼容性差异。工作流程如下:

- 在 Apifox 中为每个供应商创建一个环境:
api.deepseek.com、platform.xiaomimimo.com、阿里云百炼、月之暗面的api.moonshot.cn以及智谱的open.bigmodel.cn。 - 导入一次 OpenAI Chat Completion 模式(Schema)。根据环境切换 Base URL。
- 一键在所有五个模型上运行相同的测试场景。对比响应内容、评分和延迟。
- 针对
tool_calls的形状配置 JSON Schema 校验,以捕获每个供应商特有的流式格式差异。
下载 Apifox,导入您的测试用例,您可以在不到 15 分钟内完成一个五路对比测试。这与我们在各模型深度解析中推荐的工作流一致:DeepSeek V4-Pro 永久降价、MiMo V2.5 成本、Kimi K2 定价。
价格战的下一步走向
价格底线在 5 月份变动了两次。在第三季度结束前,可能还会有两次变动。
- Qwen 的回应。 阿里巴巴很少第一个降价,但通常会在几周内跟进。预计 7 月前会有 Qwen3 Max 的价格修订或 Qwen 3.8 的发布。
- GLM 的回应。 智谱对 GLM-5 提价 30% 的做法看起来越来越不合群。推出具有结构性降价的 GLM-5.2 是有可能的。
- Kimi 的结构简化。 分层上下文定价正在过时。月之暗面可能会统一 K2.6 的费率以匹配 MiMo 的结构。
据此构建您的技术栈。接下来的三个步骤:
- 根据上方的采购矩阵审计您的前三大工作负载。本周选择一个进行迁移测试。
- 固定您的缓存前缀。无论最终选择哪个模型,这都是稳赚不赔的。
- 配置一个指向所有五个供应商的 Apifox 回归测试套件,这样下一轮降价时,评估工作只需几小时而非几周。
价格底线尚未见底。请为接下来的变化做好准备。
开发必备:API 全流程管理神器 Apifox
介绍完上文的内容,我想额外介绍一个对开发者同样重要的效率工具 —— Apifox。作为一个集 API 文档、调试、设计、测试、Mock、自动化测试于一体的工具,Apifox 是目前提升研发效率的首选。
如果你正在开发项目,不妨试试其极其友好的界面设计,它完全兼容 Postman 和 Swagger 数据格式,导入数据非常方便,,即使是新手也能很快上手,点击这里即可注册使用。

值得一提的是,除了个人和常规团队使用,针对有高安全合规要求、或需要在内网环境协作的企业,Apifox 还提供了深度定制的私有化部署方案。
获取专属报价与部署方案
详细的私有化部署系统架构与安全白皮书
针对您公司规模的专属报价单
免费的 1v1 专属产品演示 (Demo) 机会