OpenAI 提供了 Audio 接口,其具有音频转文本(Create transcription)以及音频翻译成英文(Create translation)的功能,目前支持的文件格式有mp3
、mp4
、mpeg
、 mpga
、 m4a
、 wav
或者webm
。本文将介绍这个功能的使用,为了方便讲解,将借助 Apifox 来操作,如果你已经迫不及待的想要尝试,可 点击此处 直接访问。
起步
API 密钥
要使 OpenAI 的 API 能够正常访问,你需要准备一个 API key,访问 OpenAI 官网,注册一个账号后即可查看你的 API 密钥。
Apifox 账号
Apifox 是 API 文档、API 调试、API Mock和自动化测试一体化协作平台,使用受众为整个研发技术团队,主要使用者为前端开发、后端开发和测试人员。在正式开始之前,如果你还没有账号,你可访问 Apifox 官网 进行注册。
设置环境变量
当准备好 API 密钥后,就可以在 Apifox 里新建一个项目,并在项目中设置环境变量的前置URL为https://api.openai.com/v1
,并将 API key 保存在环境变量中,如下图所示:
除此之外,你需要在项目的“根目录->Auth”下,选择类型为“Bearer Token”,并将你设置在环境变量中的 API key 作为请求时的 token,如下图所示:
音视频转文本(Create transcription)
“音视频转文本”的接口为
POST
https://api.openai.com/v1/audio/transcriptions
,该接口支持的请求参数如下:
参数 | 类型 | 是否必需 | 说明 |
file | file | 是 | 要转录的音频文件对象(不是文件名),采用以下格式之一:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。 |
model | string | 是 | 要使用的模型的 ID。仅 whisper-1 当前可用。 |
prompt | string | 否 | 用于指导模型风格或继续之前的音频片段的可选文本。提示应与音频语言相匹配。 |
response_format | string | 否 | 脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。 |
temperature | number | 否 | 采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认值为 0。 |
language | string | 否 | 输入音频的语言。以ISO-639-1格式提供输入语言将提高准确性和延迟。 |
在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了文本。
音视频翻译成英文(Create translation)
“音视频翻译成英文”的接口为 POST
https://api.openai.com/v1/audio/translations
,该接口支持的请求参数如下:
参数 | 类型 | 是否必需 | 说明 |
file | file | 是 | 音频文件对象(不是文件名)采用以下格式之一进行翻译:mp3、mp4、mpeg、mpga、m4a、wav 或 webm。 |
model | string | 是 | 要使用的模型的 ID。仅 whisper-1 当前可用。 |
prompt | string | 否 | 用于指导模型风格或继续之前的音频片段的可选文本。提示应该是英文的 |
response_format | string | 否 | 脚本输出的格式,采用以下选项之一:json、text、srt、verbose_json 或 vtt。默认为 json。 |
temperature | number | 否 | 采样温度,介于 0 和 1 之间。较高的值(如 0.8)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性。如果设置为 0,模型将使用对数概率自动升高温度,直到达到特定阈值。默认为 0。 |
在 Apifox 中,创建该接口,并填写请求路径、请求参数以及上传规定格式的音频或视频文件。发送请求经过处理后,即可查看结果。如图所示,上传了一个视频文件,发送请求后提取出了翻译后的文本。
总结
以上就是 OpenAI 的“音频”接口的介绍 ,它对于音频识别方面还是不错的。另外,如果你想学习更多关于 OpenAI 的其它 API,也可访问在线的 OpenAI API Hub 项目。项目中包含了 OpenAI 官方提供的所有 API,你可以根据需要进行操作,比如你可以通过 OpenAI 的接口来生成图像、上传音视频文件并转文本、翻译、创建聊天机器人、创建微调等。项目中有些目录下会有相关的 MarkDown 文件,里面会简要介绍某个功能模块怎么使用。
注:在使用该项目之前,请查看“项目说明”
其它扩展
如果你想要学习更多 AI 相关的知识,欢迎访问如下扩展:
- OpenAI 中文学习文档:OpenAI 中文文档
- ChatGPT 提示词指南:Prompt 学习指南
- 面向开发者的 Prompt 指南: Prompt 工程指南