【新】高速 pro
📌
📌
2.使用音频来训练这个模型 也就是带上原始音频克隆
3.使用克隆的音频模型来合成新的音频url——创建文本转音频任务
4.创新并训练形象 也就是上传原始的形象视频
5.然后创建视频任务 用合成好的音频url+形象id合成即可
鉴权token:联系客户经理获取
请一定严格遵守
1.
(1)音频时长:建议音频时长限制在20s-40s;
(2)音频质量:
a. 只有一个在说话,避免音频中出现多个人的声音;
b. 保证低底噪。说话人说话越清晰,最终克隆效果越好,音频底噪会严重影响克隆效果;
c. 保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)、杂音、混响等情况;
d. 音频中不要有背景音乐;
e. 音频中不要有桌椅响声、键盘鼠标敲击声、衣服摩擦声等人为噪声;
f. 音频中可以存在口误。口误时无需终止录音,可停顿1~2秒后,继续录制即可。
(3)音频内容:
在录制音频前建议先确定好声音风格,在录音时尽量去贴近风格,避免录制的音频情绪韵律趋于平淡。如果希望克隆出的声音情绪饱满、韵律有起伏,请尽量上传表现力强的音频来克隆。
(4)音频格式:
支持mp3、m4a、wav文件格式,音频文件大小不超过20M。
视频要求
1.不要使用有多人的视频
2.确保人脸不要太小,建议人脸宽度占整体画面宽度的1/4以上
3.人脸不要太大,确保整张人脸都在屏幕区域内,人脸不要出屏幕
4.确保面部特征没有被遮挡,并努力让面部清晰可见
5.上传的视频分辨率不应低于360p,也不应超过3840p,建议分辨率为720p或1080p
6.视频长度不应少于5秒,不超过30分钟
7.给到的形象视频需要符合想要生成视频的动作逻辑和面部表情特征
8.文件大小:小于500MB
修改于 2024-11-28 03:54:39