Text To Speech - 石榴AI开放平台

语音合成

文本合成规范说明

文本长度限制：待合成文本需控制在 10,000 个字符以内（包含标点和特殊符号）。
段落分隔方式：使用换行符 \n 表示段落切换。
语音停顿控制：
支持在文本中插入停顿标记 <#x#>，用于控制字词之间的语音间隔时间，其中 x 为停顿时长（单位为秒，范围为 0.01 ~ 99.99，保留最多两位小数）。
停顿标记需满足以下条件：
1. 必须位于两个可发音文本之间；
2. 不支持连续插入多个时间间隔标记（例如 <#1#><#2#> 为非法格式）；
3. 不可出现在文本开头或结尾。
多音字注音规则：
支持对多音字进行显式注音，采用在目标字后以<(xxx)>标注拼音的方式，其中 xxx为小写拼音并附带数字声调，括号为英文括号，系统将根据标注进行替换发音。
数字声调用数字代替，一声（阴平）为1，二声（阳平）为2，三声（上声）为3，四声（去声）为4，轻声为5
示例：
【现在高考卷<(juan3)>得厉害，高考卷<(juan4)>难度很大】
注音标记可直接嵌入 text 字段中，无需使用单独字段。

请求参数

Authorization

在 Header 添加参数

Authorization

，其值为在 Bearer 之后拼接 Token

示例：

Authorization: Bearer ********************

Body 参数application/json

speakerId

integer

音色ID

必需

text

string

待合成的文本

必需

speedRatio

number

语速

可选

浮点数类型，[0.2, 3.0]，默认为1.0，通常保留一位小数即可

volumeRatio

number

音量

可选

浮点数类型，[0.1, 3]，默认为1.0，通常保留一位小数即可

pitchRatio

number

语调

可选

浮点数类型，[0.1, 3]，默认为1.0，通常保留一位小数即可

示例

{
    "speakerId": 0,
    "text": "string",
    "speedRatio": 0,
    "volumeRatio": 0,
    "pitchRatio": 0
}

示例代码

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

返回响应

🟢200成功

application/json

Body

code

integer

状态码

必需

data

object

响应内容

必需

audio

string

音频数据（Base64编码）

必需

音源为mp3格式

length

integer

音频时长

必需

单位：毫秒

msg

string

错误信息

必需

示例

{"code":0,"data":{"audio":"//PkxAA......VVVVV","length":1616},"msg":""}