OpenAI 的音视频转文本及翻译 API 概述

本文讲述了 OpenAI 的音视频转文本和音视频翻译的操作

用 Apifox,节省研发团队的每一分钟

OpenAI 的音视频转文本及翻译 API 概述

免费使用 Apifox

相关推荐

最新文章

API

一体化协作平台

API 设计

API 文档

API 调试

自动化测试

API Mock

API Hub

立即体验 Apifox
目录

OpenAI 提供了 Audio 接口,其具有音频转文本(Create transcription)以及音频翻译成英文(Create translation)的功能,目前支持的文件格式有mp3mp4mpegmpgam4awav或者webm。本文将介绍这个功能的使用,为了方便讲解,将借助 Apifox 来操作,如果你已经迫不及待的想要尝试,可 点击此处 直接访问。

起步

API 密钥

要使 OpenAI 的 API 能够正常访问,你需要准备一个 API key,访问 OpenAI 官网,注册一个账号后即可查看你的 API 密钥。

OpenAI的Audio API
API 密钥

Apifox 账号

Apifox 是 API 文档、API 调试、API Mock和自动化测试一体化协作平台,使用受众为整个研发技术团队,主要使用者为前端开发、后端开发和测试人员。在正式开始之前,如果你还没有账号,你可访问 Apifox 官网 进行注册。

OpenAI的Audio API
Apifox

设置环境变量

当准备好 API 密钥后,就可以在 Apifox 里新建一个项目,并在项目中设置环境变量的前置URLhttps://api.openai.com/v1,并将 API key 保存在环境变量中,如下图所示:

OpenAI的Audio API
填写信息

除此之外,你需要在项目的“根目录->Auth”下,选择类型为“Bearer Token”,并将你设置在环境变量中的 API key 作为请求时的 token,如下图所示:

OpenAI的Audio API
选择 Bearer Token

音视频转文本(Create transcription)

“音视频转文本”的接口为 POST https://api.openai.com/v1/audio/transcriptions,该接口支持的请求参数如下:

参数
类型
是否必需
说明
file
file
要转录的音频文件对象(不是文件名),采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string
要使用的模型的 ID。仅whisper-1当前可用。
prompt
string
用于指导模型风格或继续之前的音频片段的可选文本。提示应与音频语言相匹配。
response_format
string
脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。
temperature
number
采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认值为 0。
language
string
输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。

在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了文本。

OpenAI的Audio API
查看结果

音视频翻译成英文(Create translation)

“音视频翻译成英文”的接口为 POST https://api.openai.com/v1/audio/translations,该接口支持的请求参数如下:

参数
类型
是否必需
说明
file
file
音频文件对象(不是文件名)采用以下格式之一进行翻译:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。
model
string
要使用的模型的 ID。仅whisper-1当前可用。
prompt
string
用于指导模型风格或继续之前的音频片段的可选文本。提示应该是英文的
response_format
string
脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。
temperature
number

采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认为 0。

在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了翻译后的文本。

OpenAI的Audio API
查看结果

总结

以上就是 OpenAI 的“音频”接口的介绍 ,它对于音频识别方面还是不错的。另外,如果你想学习更多关于 OpenAI 的其它 API,也可访问在线的 OpenAI API Hub 项目。项目中包含了 OpenAI 官方提供的所有 API,你可以根据需要进行操作,比如你可以通过 OpenAI 的接口来生成图像、上传音视频文件并转文本、翻译、创建聊天机器人、创建微调等。项目中有些目录下会有相关的 MarkDown 文件,里面会简要介绍某个功能模块怎么使用。

OpenAI的 API 接口
OpenAI API
注:在使用该项目之前,请查看“项目说明”

其它扩展

如果你想要学习更多 AI 相关的知识,欢迎访问如下扩展: