数字人
    数字人
    • 标准版数字人合成
      • 生成数字人视频
        POST
      • 获取任务详情
        GET
    • 高质量视频合成
      • 创建V2视频任务
        POST
      • 查询V2合成进度
        POST
    • 自研声音克隆(主推)
      • 创建新的语音模型
        POST
      • 将文本转换为语音
        POST
    • 文案二创
      • 文案二创
        POST
    • 视频二创
      • 创建视频生成任务
        POST
      • 查询视频任务状态
        GET
    • 声音克隆(废弃)
      • 创建音色模型
        POST
      • 训练模型音色
        POST
      • 创建文本转音频任务
        POST
      • 查询音色训练进度
        POST
      • 查询音频合成进度
        POST
    • 高速视频合成接口
      • 创建并训练形象模特
        POST
      • 创建高速视频任务
        POST
      • 查询模特训练进度
        POST
      • 查询pro视频进度
        POST

    视频数字人接口

    📌
    概述
    全新数字人接口
    📌
    基本流程
    1.首先创建音色模型
    2.使用音频来训练这个模型 也就是带上原始音频克隆-创建新的语音模型
    3.使用克隆的音频模型来合成新的音频url——将文本转为语音
    4.创新并训练形象 也就是上传原始的形象视频
    5.然后创建视频任务 用合成好的音频url+形象id合成即可
    素材要求如下
    请一定严格遵守
    对外营销时可以说原视频123321就可以
    但是使用时一定要注意原始视频和音频的质量
    如需强制停顿,就多加几个标点符号
    一.声音克隆需求
    1.
    参考音频
    (1)音频时长:建议音频时长限制在20s-40s;
    (2)音频质量:
    a. 只有一个在说话,避免音频中出现多个人的声音;
    b. 保证低底噪。说话人说话越清晰,最终克隆效果越好,音频底噪会严重影响克隆效果;
    c. 保持音量大小、语速稳定、注意断句、避免口腔噪音(如口水声)、杂音、混响等情况;
    d. 音频中不要有背景音乐;
    e. 音频中不要有桌椅响声、键盘鼠标敲击声、衣服摩擦声等人为噪声;
    f. 音频中可以存在口误。口误时无需终止录音,可停顿1~2秒后,继续录制即可。
    (3)音频内容:
    在录制音频前建议先确定好声音风格,在录音时尽量去贴近风格,避免录制的音频情绪韵律趋于平淡。如果希望克隆出的声音情绪饱满、韵律有起伏,请尽量上传表现力强的音频来克隆。
    (4)音频格式:
    支持mp3、m4a、wav文件格式,音频文件大小不超过20M。
    参考的音频样例:https://s3.file-next.com/meta/wnaudio.mp3
    二.形象克隆需求
    视频要求
    1.不要使用有多人的视频
    2.确保人脸不要太小,建议人脸宽度占整体画面宽度的1/4以上
    3.人脸不要太大,确保整张人脸都在屏幕区域内,人脸不要出屏幕
    4.确保面部特征没有被遮挡,并努力让面部清晰可见
    5.上传的视频分辨率不应低于360p,也不应超过3840p,建议分辨率为720p或1080p
    6.视频长度不应少于5秒,不超过30分钟
    7.给到的形象视频需要符合想要生成视频的动作逻辑和面部表情特征
    8.文件大小:小于500MB
    参考的视频样例:https://s3.file-next.com/meta/WeChat_20241121165216.mp4
    上一页
    查询音频合成进度
    下一页
    创建并训练形象模特
    Built with