OpenAI 的音视频转文本及翻译 API 概述

本文讲述了 OpenAI 的音视频转文本和音视频翻译的操作

用 Apifox,节省研发团队的每一分钟

OpenAI 的音视频转文本及翻译 API 概述

免费使用 Apifox

相关推荐

最新文章

OpenAI 提供了 Audio 接口,其具有音频转文本(Create transcription)以及音频翻译成英文(Create translation)的功能,目前支持的文件格式有mp3mp4mpegmpgam4awav或者webm。本文将介绍这个功能的使用,为了方便讲解,将借助 Apifox 来操作,如果你已经迫不及待的想要尝试,可 点击此处 直接访问。

起步

API 密钥

要使 OpenAI 的 API 能够正常访问,你需要准备一个 API key,访问 OpenAI 官网,注册一个账号后即可查看你的 API 密钥。

OpenAI的Audio API
API 密钥

Apifox 账号

Apifox 是 API 文档、API 调试、API Mock和自动化测试一体化协作平台,使用受众为整个研发技术团队,主要使用者为前端开发、后端开发和测试人员。在正式开始之前,如果你还没有账号,你可访问 Apifox 官网 进行注册。

OpenAI的Audio API
Apifox

设置环境变量

当准备好 API 密钥后,就可以在 Apifox 里新建一个项目,并在项目中设置环境变量的前置URLhttps://api.openai.com/v1,并将 API key 保存在环境变量中,如下图所示:

OpenAI的Audio API
填写信息

除此之外,你需要在项目的“根目录->Auth”下,选择类型为“Bearer Token”,并将你设置在环境变量中的 API key 作为请求时的 token,如下图所示:

OpenAI的Audio API
选择 Bearer Token

音视频转文本(Create transcription)

“音视频转文本”的接口为 POST https://api.openai.com/v1/audio/transcriptions,该接口支持的请求参数如下:

参数
类型
是否必需
说明
file
file
要转录的音频文件对象(不是文件名),采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string
要使用的模型的 ID。仅whisper-1当前可用。
prompt
string
用于指导模型风格或继续之前的音频片段的可选文本。提示应与音频语言相匹配。
response_format
string
脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。
temperature
number
采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认值为 0。
language
string
输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了文本。

OpenAI的Audio API
查看结果

音视频翻译成英文(Create translation)

“音视频翻译成英文”的接口为 POST https://api.openai.com/v1/audio/translations,该接口支持的请求参数如下:

参数
类型
是否必需
说明
file
file
音频文件对象(不是文件名)采用以下格式之一进行翻译:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string
要使用的模型的 ID。仅whisper-1当前可用。
prompt
string
用于指导模型风格或继续之前的音频片段的可选文本。提示应该是英文的
response_format
string
脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。
temperature
number

采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认为 0。

在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了翻译后的文本。

OpenAI的Audio API
查看结果

总结

以上就是 OpenAI 的“音频”接口的介绍 ,它对于音频识别方面还是不错的。另外,如果你想学习更多关于 OpenAI 的其它 API,也可访问在线的 OpenAI API Hub 项目。项目中包含了 OpenAI 官方提供的所有 API,你可以根据需要进行操作,比如你可以通过 OpenAI 的接口来生成图像、上传音视频文件并转文本、翻译、创建聊天机器人、创建微调等。项目中有些目录下会有相关的 MarkDown 文件,里面会简要介绍某个功能模块怎么使用。

OpenAI的 API 接口
OpenAI API
注:在使用该项目之前,请查看“项目说明”

其它扩展

如果你想要学习更多 AI 相关的知识,欢迎访问如下扩展: