text-to-speech

POST

https://api.chatfire.cn/elevenlabs/v1/text-to-speech/{voice_id}

最后修改时间：2025-07-15 10:00:36

责任人：未设置

ElevenLabs Turbo v2.5 模型，用于文本转语音生成。

高质量、低延迟，非常适合实时应用。支持 32 种语言，同时保持自然的语音质量。

ElevenLabs Turbo v2.5 model for text-to-speech generation.

High quality with lowest latency, ideal for real-time applications. Supports 32 languages while maintaining natural voice quality.

请求参数

Authorization

在 Header 添加参数

Authorization

，其值为在 Bearer 之后拼接 Token

示例：

Authorization: Bearer ********************

Path 参数

voice_id

object

必需

点击获取 https://api.elevenlabs.io/v1/voices

示例值:

JBFqnCBsd6RMkjVDRZzb

voice_id

string

可选

要使用的声音的ID。使用 Get voices 端点列出所有可用的声音。

Query 参数

output_format

object

必需

URL查询字符串中的参数

示例值:

mp3_44100_128

enable_logging

boolean

可选

当 enable_logging 设置为 false 时，请求将使用零保留模式。这意味着此请求的历史记录功能将不可用，包括请求拼接。零保留模式只能由企业客户使用。

默认值:

true

optimize_streaming_latency

integer | null

已废弃

已弃用。您可以以牺牲一些质量为代价来开启延迟优化。最佳的最终延迟因模型而异。可能的值：0 - 默认模式（无延迟优化），1 - 正常延迟优化（约为选项3可能延迟改善的50%），2 - 强延迟优化（约为选项3可能延迟改善的75%），3 - 最大延迟优化，4 - 最大延迟优化，但同时关闭文本规范化器以节省更多延迟（最佳延迟，但可能会读错数字和日期等）。

默认值:

null

output_format

enum<string>

可选

生成音频的输出格式。格式为 codec_sample_rate_bitrate。例如，一个 22.05kHz 采样率、32kbs 比特率的 mp3 表示为 mp3_22050_32。192kbps 比特率的 MP3 要求您订阅 Creator 或更高级别的套餐。44.1kHz 采样率的 PCM 要求您订阅 Pro 或更高级别的套餐。请注意，μ-law 格式（有时写作 mu-law，通常近似为 u-law）常用于 Twilio 音频输入。

枚举值:

mp3_22050_32mp3_44100_32mp3_44100_64mp3_44100_96mp3_44100_128mp3_44100_192pcm_8000pcm_16000pcm_22050pcm_24000pcm_44100pcm_48000ulaw_8000alaw_8000opus_48000_32opus_48000_64opus_48000_96opus_48000_128opus_48000_192

默认值:

mp3_44100_128

Body 参数application/json

HTTP请求体

text

string

必需

将被转换成语音的文本。

model_id

enum<string>

可选

将要使用的模型的标识符，您可以使用 GET /v1/models 查询它们。该模型需要支持文本转语音，您可以使用 can_do_text_to_speech 属性检查这一点。

枚举值:

eleven_turbo_v2_5eleven_multilingual_v2

language_code

string | null

可选

用于强制模型使用特定语言的语言代码（ISO 639-1）。目前只有 Turbo v2.5 和 Flash v2.5 支持语言强制。对于其他模型，如果提供语言代码，将返回错误。

voice_settings

object | null

可选

声音设置，用于覆盖给定声音的存储设置。它们仅应用于当前请求。

stability

number <double> | null

可选

决定声音的稳定性以及每次生成之间的随机性。较低的值会为声音引入更广泛的情感范围。较高的值可能导致声音单调，情感有限。

use_speaker_boost

boolean | null

可选

此设置可增强与原始说话者的相似度。使用此设置需要稍高的计算负载，从而增加延迟。

similarity_boost

number <double> | null

可选

决定在尝试复制原始声音时，AI 应在多大程度上遵循原始声音。

style

number <double> | null

可选

决定声音的风格夸张程度。此设置试图放大原始说话者的风格。它确实会消耗额外的计算资源，如果设置为非 0 值，可能会增加延迟。

speed

number <double> | null

可选

调整声音的速度。值为 1.0 是默认速度，小于 1.0 的值会减慢语速，大于 1.0 的值会加快语速。

pronunciation_dictionary_locators

array [object {2}] | null

可选

要应用于文本的发音词典定位器（id, version_id）列表。它们将按顺序应用。每个请求最多可以有 3 个定位器。

pronunciation_dictionary_id

string

发音词典的 ID。

必需

version_id

string | null

可选

发音词典版本的 ID。如果未提供，将使用最新版本。

seed

integer | null

可选

如果指定，我们的系统将尽力进行确定性采样，以便使用相同种子和参数的重复请求应返回相同的结果。不保证确定性。必须是 0 到 4294967295 之间的整数。

previous_text

string | null

可选

当前请求文本之前的文本。可用于在连接多个生成时改善语音的连续性，或影响当前生成中语音的连续性。

next_text

string | null

可选

当前请求文本之后的文本。可用于在连接多个生成时改善语音的连续性，或影响当前生成中语音的连续性。

previous_request_ids

array[string] | null

可选

在此生成之前生成的样本的 request_id 列表。在将大型任务拆分为多个请求时，可用于改善语音的连续性。当跨代使用相同模型时，结果将是最好的。如果同时发送了 previous_text 和 previous_request_ids，则将忽略 previous_text。最多可以发送 3 个 request_id。

next_request_ids

array[string] | null

可选

在此生成之后生成的样本的 request_id 列表。next_request_ids 在重新生成存在某些音频质量问题的样本时，对于保持语音的连续性特别有用。例如，如果您生成了 3 个语音剪辑，并且想要改进剪辑 2，将剪辑 3 的请求 ID 作为 next_request_id（并将剪辑 1 的请求 ID 作为 previous_request_id）传递将有助于在合并的语音中保持自然的流畅性。当跨代使用相同模型时，结果将是最好的。如果同时发送了 next_text 和 next_request_ids，则将忽略 next_text。最多可以发送 3 个 request_id。

apply_text_normalization

enum<string>

可选

此参数通过三种模式控制文本规范化：‘auto’、‘on’ 和 ‘off’。当设置为 ‘auto’ 时，系统将自动决定是否应用文本规范化（例如，拼出数字）。设置为 ‘on’ 时，将始终应用文本规范化，而设置为 ‘off’ 时，将跳过。对于 ‘eleven_turbo_v2_5’ 或 ‘eleven_flash_v2_5’ 模型，无法开启此功能。

枚举值:

autoonoff

默认值:

auto

apply_language_text_normalization

boolean

可选

此参数控制语言文本规范化。这有助于在某些支持的语言中正确发音。警告：此参数会显著增加请求的延迟。目前仅支持日语。

默认值:

false

use_pvc_as_ivc

boolean

已废弃

已弃用。如果为 true，我们将不使用 PVC 版本的语音进行生成，而是使用 IVC 版本。这是为了解决 PVC 版本中较高延迟的临时解决方法。

默认值:

false

response_format

enum<string>

可选

枚举值:

url

示例

{
  "text": "The first move is what sets everything in motion.",
  "model_id": "eleven_turbo_v2_5"
}

示例代码

Shell

JavaScript

Java

Swift

PHP

Python

HTTP

Objective-C

Ruby

OCaml

Dart

curl --location --request POST 'https://api.chatfire.cn/elevenlabs/v1/text-to-speech/JBFqnCBsd6RMkjVDRZzb?output_format=mp3_44100_128' \
--header 'Content-Type: application/json' \
--data-raw '{
  "text": "The first move is what sets everything in motion.",
  "model_id": "eleven_turbo_v2_5"
}'

返回响应

🟢200成功

application/octet-stream

Body

object {0}

示例

成功示例返回url

文件流

修改于 2025-07-15 10:00:36

Elevenlabs 语音

text-to-speech-with-timestamps