数字人
  1. 自研声音克隆(主推)
数字人
  • 标准版数字人合成
    • 生成数字人视频
      POST
    • 获取任务详情
      GET
  • 高质量视频合成
    • 创建V2视频任务
      POST
    • 查询V2合成进度
      POST
  • 自研声音克隆(主推)
    • 创建新的语音模型
      POST
    • 将文本转换为语音
      POST
  • 文案二创
    • 文案二创
      POST
  • 视频二创
    • 创建视频生成任务
      POST
    • 查询视频任务状态
      GET
  • 声音克隆(废弃)
    • 创建音色模型
      POST
    • 训练模型音色
      POST
    • 创建文本转音频任务
      POST
    • 查询音色训练进度
      POST
    • 查询音频合成进度
      POST
  • 高速视频合成接口
    • 创建并训练形象模特
      POST
    • 创建高速视频任务
      POST
    • 查询模特训练进度
      POST
    • 查询pro视频进度
      POST
  1. 自研声音克隆(主推)

将文本转换为语音

POST
https://api.yunai.xyz/v1/tts
Text to Speech
使用指定的参数将文本转换为语音。

请求参数

Authorization
Header 参数
Authorization
string 
可选
示例值:
Bearer sk
Body 参数application/msgpack
text
string 
要转换为语音的文本
必需
references
array[object (Reference) {3}]  | null 
可选
用于语音的参考信息,使用 MessagePack 序列化
audio
string <binary>
参考音频文件
可选
text
string 
参考文本
必需
reference_id
string  | null 
参考模型的 ID
可选
reference_id
string  | null 
必需
要使用的参考模型的 ID
prosody
可选
One of
用于语音的韵律设置
speed
number 
语速
可选
默认值:
1
volume
number 
音量
可选
默认值:
0
chunk_length
integer 
语音的块长度
可选
>= 101<= 299
默认值:
200
normalize
boolean 
可选
是否标准化语音,这将减少延迟但可能降低数字和日期的表现
默认值:
true
format
enum<string> 
语音的格式
可选
枚举值:
wavpcmmp3opus
默认值:
mp3
sample_rate
integer  | null 
语音的采样率
可选
mp3_bitrate
enum<integer> 
MP3 的比特率
可选
枚举值:
64128192
默认值:
128
opus_bitrate
enum<integer> 
Opus 的比特率
可选
枚举值:
-100024324864
默认值:
32
latency
enum<string> 
语音的延迟设置
可选
枚举值:
normalbalanced
默认值:
normal
示例
{
  "text": "string",
  "references": [
    {
      "audio": "string",
      "text": "string",
      "reference_id": "string"
    }
  ],
  "reference_id": "string",
  "prosody": {
    "speed": 1,
    "volume": 0
  },
  "chunk_length": 200,
  "normalize": true,
  "format": "mp3",
  "sample_rate": 0,
  "mp3_bitrate": 128,
  "opus_bitrate": 32,
  "latency": "normal"
}

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.yunai.xyz/v1/tts' \
--header 'Authorization: Bearer sk' \
--header 'Content-Type: application/msgpack' \
--data-raw '{
    "text": "string",
    "references": [
        {
            "audio": "string",
            "text": "string",
            "reference_id": "string"
        }
    ],
    "reference_id": "string",
    "prosody": {
        "speed": 1,
        "volume": 0
    },
    "chunk_length": 200,
    "normalize": true,
    "format": "mp3",
    "sample_rate": 0,
    "mp3_bitrate": 128,
    "opus_bitrate": 32,
    "latency": "normal"
}'

返回响应

🟢200成功
application/octet-stream
请求成功,返回语音数据。
Body
object {0}
示例
{}
🟠401没有权限
🟠402402
🟠422参数错误
上一页
创建新的语音模型
下一页
文案二创
Built with