通义千问 API
  1. 全模态(Qwen-Omni )
通义千问 API
  • 首次调用通义千问API
  • 文本生成
    • 深度思考(QwQ)
      • 深度思考(QwQ)概括
      • 快速开始
      • 多轮对话
    • 长上下文
      • 通过file-id传入文档信息
        • 简单示例
        • 传入多文档
        • 追加文档
      • 通过纯文本传入信息
        • 简单示例
        • 传入多文档
        • 追加文档
      • 通过JSON字符串传入文档信息
        • 简单示例
        • 传入多文档
        • 追加文档
    • 翻译能力
      • Qwen-MT模型
      • 支持的语言
      • 简单示例
      • 流式输出
      • 术语干预翻译
      • 使用翻译记忆
      • 领域提示
    • 数学能力
      • 模型概览
      • 示例代码
    • 代码能力
      • 模型概览
      • 简单示例
      • 代码补全
      • 根据前缀和后缀生成中间内容
    • 多轮对话
      • 开始使用
    • 流式输出(Stream)
      • 概述
      • 开始使用
    • 工具调用(Function Calling)
      • 概述
    • 结构化输出(Json Mode)
      • 支持的模型
      • 开始使用
    • 前缀续写(Partial Mode)
      • 支持的模型
      • 开始使用
    • 批量推理(Batch)
      • 概述
    • 上下文缓存(Context Cache)
      • 概述
  • 视觉理解
    • 全模态(Qwen-Omni )
      • 概述
      • 开始使用
        POST
      • 图片+文本输入
        POST
      • 音频+文本输入
        POST
      • 视频+文本输入
        POST
      • 多轮对话
        POST
  1. 全模态(Qwen-Omni )

概述

Qwen-Omni 系列模型支持输入多种模态的数据,包括视频、音频、图片、文本,并输出文本。

支持的模型#

相比于 Qwen-VL 与 Qwen-Audio 模型,Qwen-Omni 模型可以:
理解视频文件中的视觉与音频信息;
理解多种模态的数据;
在视觉理解、音频理解等能力上,Qwen-Omni 模型也表现出色。
模型名称版本上下文长度最大输入最大输出免费额度(注)
(Token数)
qwen-omni-turbo当前等同qwen-omni-turbo-2025-01-19稳定版32,76830,7202,048各100万Token(不区分模态)有效期:百炼开通后180天内
qwen-omni-turbo-latest始终等同最新快照版最新版
qwen-omni-turbo-2025-01-19又称qwen-omni-turbo-0119快照版
当免费额度用完后,输入与输出的计费规则如下:
其中,稳定版模型qwen-omni-turbo支持Batch调用,费用为以下价格的50%。注:Batch调用不支持抵扣免费额度。
**输入计费项****单价(每千 Token)**输入:文本0.0004元输入:音频0.025元输入:图片/视频0.0015元**输出计费项****单价(每千 Token)**输出:文本0.0016元(输入仅包含文本时)0.0045元(输入包含图片/音频/视频时)
计费示例:某次请求输入了1000 Token 的文本和1000 Token 的图片,输出了1000 Token 的文本,则该请求花费:0.0004元(文本输入)+ 0.0015元(图片输入)+ 0.0045元(文本输出)= 0.0064元。在Batch调用模式下,该请求花费按50%计收,为0.0032元。
音频与图片转换为Token数的规则

使用方法#

输入#

支持的输入模态#

支持以下输入组合:
文本输入
图片+文本输入
音频+文本输入
视频(包括图像列表与视频文件形式)+文本输入
无法在一个 User Message中输入多种非文本模态的数据。

输入多模态数据的方式#

输入的图片、音频、视频文件支持 Base64 编码与公网 URL 进行传入。以下示例代码均以传入公网 URL 为例,如果需要传入 Base64 编码,请参见输入 Base64 编码的本地文件。

输出#

当前仅支持以流式输出的形式调用 Qwen-Omni 模型。

支持的输出模态#

重要
当前仅支持文本输出,后续会推出音频输出功能。
输出模态由**modalities**参数控制,当前仅支持设置为["text"]。
``
输出模态**modalities**参数值
文本["text"](默认值)
上一页
概述
下一页
开始使用
Built with