1.
参考音频
(1)音频时长:建议音频时长限制在20s-40s;
(2)音频质量:
a. 只有一个在说话,避免音频中出现多个人的声音;
b. 保证低底噪。说话人说话越清晰,最终克隆效果越好,音频底噪会严重影响克隆效果;
c. 保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)、杂音、混响等情况;
d. 音频中不要有背景音乐;
e. 音频中不要有桌椅响声、键盘鼠标敲击声、衣服摩擦声等人为噪声;
f. 音频中可以存在口误。口误时无需终止录音,可停顿1~2秒后,继续录制即可。
(3)音频内容:
在录制音频前建议先确定好声音风格,在录音时尽量去贴近风格,避免录制的音频情绪韵律趋于平淡。如果希望克隆出的声音情绪饱满、韵律有起伏,请尽量上传表现力强的音频来克隆。
(4)音频格式:
支持mp3、m4a、wav文件格式 ,音频文件大小不超过20M。