OpenAI 的音视频转文本及翻译 API 概述

OpenAI 提供了 Audio 接口，其具有音频转文本（Create transcription）以及音频翻译成英文（Create translation）的功能，目前支持的文件格式有mp3、mp4、mpeg、 mpga、 m4a、 wav或者webm。本文将介绍这个功能的使用，为了方便讲解，将借助 Apifox 来操作，如果你已经迫不及待的想要尝试，可点击此处直接访问。

起步

API 密钥

要使 OpenAI 的 API 能够正常访问，你需要准备一个 API key，访问 OpenAI 官网，注册一个账号后即可查看你的 API 密钥。

Apifox 账号

Apifox 是 API 文档、API 调试、API Mock和自动化测试一体化协作平台，使用受众为整个研发技术团队，主要使用者为前端开发、后端开发和测试人员。在正式开始之前，如果你还没有账号，你可访问 Apifox 官网进行注册。

设置环境变量

当准备好 API 密钥后，就可以在 Apifox 里新建一个项目，并在项目中设置环境变量的前置URL为https://api.openai.com/v1，并将 API key 保存在环境变量中，如下图所示：

除此之外，你需要在项目的“根目录->Auth”下，选择类型为“Bearer Token”，并将你设置在环境变量中的 API key 作为请求时的 token，如下图所示：

音视频转文本（Create transcription）

“音视频转文本”的接口为 POST https://api.openai.com/v1/audio/transcriptions，该接口支持的请求参数如下：

参数	类型	是否必需	说明
file	file	是	要转录的音频文件对象（不是文件名），采用以下格式之一：mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model	string	是	要使用的模型的 ID。仅`whisper-1`当前可用。
prompt	string	否	用于指导模型风格或继续之前的音频片段的可选文本。提示应与音频语言相匹配。
response_format	string	否	脚本输出的格式，采用以下选项之一：json、text、srt、verbose_json 或 vtt。默认为 json。
temperature	number	否	采样温度，介于 0 和 1 之间。较高的值（如 0.8）将使输出更加随机，而较低的值（如 0.2）将使其更加集中和确定性。如果设置为 0，模型将使用对数概率自动升高温度，直到达到特定阈值。默认值为 0。
language	string	否	输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

在 Apifox 中，创建该接口，并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后，即可查看结果。如图所示，上传了一个视频文件，发送请求后提取出了文本。

音视频翻译成英文（Create translation）

“音视频翻译成英文”的接口为 POST https://api.openai.com/v1/audio/translations，该接口支持的请求参数如下：

参数	类型	是否必需	说明
file	file	是	音频文件对象（不是文件名）采用以下格式之一进行翻译：mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model	string	是	要使用的模型的 ID。仅`whisper-1`当前可用。
prompt	string	否	用于指导模型风格或继续之前的音频片段的可选文本。提示应该是英文的
response_format	string	否	脚本输出的格式，采用以下选项之一：json、text、srt、verbose_json 或 vtt。默认为 json。
temperature	number	否	采样温度，介于 0 和 1 之间。较高的值（如 0.8）将使输出更加随机，而较低的值（如 0.2）将使其更加集中和确定性。如果设置为 0，模型将使用对数概率自动升高温度，直到达到特定阈值。默认为 0。

在 Apifox 中，创建该接口，并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后，即可查看结果。如图所示，上传了一个视频文件，发送请求后提取出了翻译后的文本。

总结

以上就是 OpenAI 的“音频”接口的介绍，它对于音频识别方面还是不错的。另外，如果你想学习更多关于 OpenAI 的其它 API，也可访问在线的 OpenAI API Hub 项目。项目中包含了 OpenAI 官方提供的所有 API，你可以根据需要进行操作，比如你可以通过 OpenAI 的接口来生成图像、上传音视频文件并转文本、翻译、创建聊天机器人、创建微调等。项目中有些目录下会有相关的 MarkDown 文件，里面会简要介绍某个功能模块怎么使用。

注：在使用该项目之前，请查看“项目说明”

其它扩展

如果你想要学习更多 AI 相关的知识，欢迎访问如下扩展：

OpenAI 中文学习文档：OpenAI 中文文档
ChatGPT 提示词指南：Prompt 学习指南
面向开发者的 Prompt 指南: Prompt 工程指南