高速视频合成接口

📌

概述

全新数字人接口

📌

基本流程

1.首先创建音色模型
2.使用音频来训练这个模型也就是带上原始音频克隆-创建新的语音模型
3.使用克隆的音频模型来合成新的音频url——将文本转为语音
4.创新并训练形象也就是上传原始的形象视频
5.然后创建视频任务用合成好的音频url+形象id合成即可

素材要求如下
请一定严格遵守

对外营销时可以说原视频123321就可以
但是使用时一定要注意原始视频和音频的质量
如需强制停顿，就多加几个标点符号

一.声音克隆需求

参考音频
（1）音频时长：建议音频时长限制在20s-40s；
（2）音频质量：
a. 只有一个在说话，避免音频中出现多个人的声音；
b. 保证低底噪。说话人说话越清晰，最终克隆效果越好，音频底噪会严重影响克隆效果；
c. 保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)、杂音、混响等情况；
d. 音频中不要有背景音乐；
e. 音频中不要有桌椅响声、键盘鼠标敲击声、衣服摩擦声等人为噪声；
f. 音频中可以存在口误。口误时无需终止录音,可停顿1~2秒后,继续录制即可。
（3）音频内容：
在录制音频前建议先确定好声音风格，在录音时尽量去贴近风格，避免录制的音频情绪韵律趋于平淡。如果希望克隆出的声音情绪饱满、韵律有起伏，请尽量上传表现力强的音频来克隆。
（4）音频格式：
支持mp3、m4a、wav文件格式，音频文件大小不超过20M。
参考的音频样例：https://s3.file-next.com/meta/wnaudio.mp3
二.形象克隆需求
视频要求
1.不要使用有多人的视频
2.确保人脸不要太小，建议人脸宽度占整体画面宽度的1/4以上
3.人脸不要太大，确保整张人脸都在屏幕区域内，人脸不要出屏幕
4.确保面部特征没有被遮挡，并努力让面部清晰可见
5.上传的视频分辨率不应低于360p，也不应超过3840p，建议分辨率为720p或1080p
6.视频长度不应少于5秒，不超过30分钟
7.给到的形象视频需要符合想要生成视频的动作逻辑和面部表情特征
8.文件大小：小于500MB
参考的视频样例：https://s3.file-next.com/meta/WeChat_20241121165216.mp4

视频数字人接口