MindCraft AI
  1. 语音识别 ASR
MindCraft AI
  • 在线调用-使用说明
  • 基础模型
    • 大语言模型 LLM
      • 其他平台上使用API
        • DIFY上使用API
        • ONE-API 上使用API
        • FastGPT 上使用API
        • 沉浸式翻译(浏览器插件) 上使用API
        • Cursor上使用MindCraft API
        • Cherry Studio上使用MindCraft API
      • LLM 模型列表+参数
      • LLM 模型对话调用
    • 语音识别 ASR
      • 语音识别请求
        • 腾讯 一句话识别
        • 腾讯 文件识别(进task任务)
        • 腾讯大模型 文件识别(进task任务)
        • 阿里 paraformer
        • 阿里 sensevoice(进task任务)
        • 字节跳动 一句话识别
      • 语音识别请求(汇总)
        POST
      • 模型列表及参数获取
        GET
      • 任务(task)数据获取
        GET
    • 语音合成 TTS
      • TTS 音色列表
      • 语音合成请求
        • 字节跳动 通用合成
        • MiniMax 短文本 V2
        • MiniMax 长文本
        • 腾讯 通用合成-普通音色
        • 腾讯 通用合成-精品音色
        • 腾讯 长文本合成-普通音色
        • 腾讯 长文本合成-精品音色
        • 科大讯飞 通用合成
        • 阿里云 语音合成CosyVoice
        • 百度 短文本合成
      • 语音合成请求(汇总)
      • 模型列表及参数获取
      • 任务(task)数据获取
    • 图片生成 Images Generations
      • 图片生成请求
        • Flux.1 文生图
        • 智谱 文生图
        • 欧朋ai 文生图
        • 通义万象 文生图
        • 豆包 文生图
        • DeepSeek 文生图
        • MiniMax 文生图
        • Gemini 文生图 Copy
      • 图片生成请求(汇总)
      • 模型列表及参数获取
    • 视频合成 Video Generations
      • 视频合成请求
        • 智谱 文生视频
        • 智谱 图片生视频
        • MiniMax 文生视频
        • MiniMax 图生视频
        • 腾讯 文生视频
        • 通义万象 文生视频
        • 通义万象 图生视频
        • 豆包 文生视频
        • 豆包 图生视频
      • 视频合成请求(汇总)
      • 模型列表及参数获取
      • 任务(task)数据获取
    • RAG模型
      • embedding 多模态向量模型
      • embedding 文字向量模型
      • rerank 文字向量模型
    • 音色处理 voice processing
      • 音色克隆
        • 声音克隆流程
        • 上传音频
        • 生成试听
        • 保存克隆
    • 图生图 Image to Image
      • make局部编辑
        • 提取 mask
        • 消除 mask
        • 重绘 mask
        • 扩图 mask
      • 图生图
        • i2i 图片一致性
        • i2i 指令编辑模型
        • i2i 超分辨率模型
        • i2i 风格化模型
  • 智能体
    • 聊天机器人
      • 文件切片上传
        • 文件切片上传 获取上传UUID
        • 文件切片上传 上传UUID认证
      • chat_bot_v1 接口明细
        • chat_bot_v1(标准standard)
        • chat_bot_v1(专家pro)
        • chat_bot_v1(自定义customize)
      • chat_bot_v1 接口汇总
      • chat_bot 参数获取
    • 聊天机器人V2(socket)
      • ChatBot 智能体(socket)
    • 聊天机器人V3 AI角色(socket)
      • 角色资源加载规则
      • 角色人设加载
        • AI角色UUIDS数据
        • 用户人设UUIDS数据
      • ChatBot 智能体V3(socket)
    • socket Device认证
      • device 获取token
  • 对话数据
    • session 对话
      • message 聊天数据
        • message 获取列表
        • message 创建消息
        • message 修改消息
        • message 删除数据
        • message 清空记录
      • session 获取对话列表
      • session 创建新对话
      • session 更改对话
      • session 删除对话
  1. 语音识别 ASR

模型列表及参数获取

GET
https://api.mindcraft.com.cn/v1/audio/transcriptions/model_config
获取服务器 请求 asr 相关参数
当前已对接 腾讯+阿里 语音识别

请求参数

无

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request GET 'https://api.mindcraft.com.cn/v1/audio/transcriptions/model_config'

返回响应

🟢200成功
application/json
Body
status
integer 
必需
message
string 
必需
data
array [object {2}] 
必需
category
string 
必需
params_list
array [object {9}] 
必需
示例
{
  "status": 200,
  "message": "",
  "data": [
    {
      "category": "tx_asr_recogAudio",
      "params_list": [
        {
          "paramName": "model",
          "isRequired": 1,
          "dataType": "str",
          "title": "模型选择",
          "description": "引擎模型类型。 示例值:16k_en",
          "dataRange": [
            {
              "name": "中文电话通用",
              "value": "8k_zh"
            },
            {
              "name": "英文电话通用",
              "value": "8k_en"
            },
            {
              "name": "中文通用",
              "value": "16k_zh"
            },
            {
              "name": "中英粤",
              "value": "16k_zh-PY"
            },
            {
              "name": "中文医疗",
              "value": "16k_zh_medical"
            },
            {
              "name": "英语",
              "value": "16k_en"
            },
            {
              "name": "粤语",
              "value": "16k_yue"
            },
            {
              "name": "日语",
              "value": "16k_ja"
            },
            {
              "name": "韩语",
              "value": "16k_ko"
            },
            {
              "name": "越南语",
              "value": "16k_vi"
            },
            {
              "name": "马来语",
              "value": "16k_ms"
            },
            {
              "name": "印度尼西亚语",
              "value": "16k_id"
            },
            {
              "name": "菲律宾语",
              "value": "16k_fil"
            },
            {
              "name": "泰语",
              "value": "16k_th"
            },
            {
              "name": "葡萄牙语",
              "value": "16k_pt"
            },
            {
              "name": "土耳其语",
              "value": "16k_tr"
            },
            {
              "name": "阿拉伯语",
              "value": "16k_ar"
            },
            {
              "name": "西班牙语",
              "value": "16k_es"
            },
            {
              "name": "印地语",
              "value": "16k_hi"
            },
            {
              "name": "法语",
              "value": "16k_fr"
            },
            {
              "name": "德语",
              "value": "16k_de"
            },
            {
              "name": "多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、 银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话)",
              "value": "16k_zh_dialect"
            }
          ]
        },
        {
          "paramName": "channel_num",
          "isRequired": 1,
          "dataType": "int",
          "title": "音频采样率",
          "description": "支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。\n如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。 示例值:0",
          "dataRange": [
            {
              "name": "单声道(16k音频仅支持单声道,请勿设置为双声道)",
              "value": 1
            },
            {
              "name": "双声道(仅支持8k电话音频,且双声道应分别为通话双方)",
              "value": 2
            }
          ]
        },
        {
          "paramName": "text_format",
          "isRequired": 1,
          "dataType": "int",
          "title": "识别结果返回样式",
          "description": "识别结果返回样式。 示例值:0",
          "dataRange": [
            {
              "name": "基础识别结果(仅包含有效人声时间戳,无词粒度的详细识别结果)",
              "value": 0
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值,不含标点)",
              "value": 1
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点)",
              "value": 2
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点),且识别结果按标点 符号分段,适用字幕场景",
              "value": 3
            },
            {
              "name": "【增值付费功能】基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点), 且识别结果按nlp语义分段,适用会议、庭审记录转写等场景,仅支持8k_zh/16k_zh引擎",
              "value": 4
            },
            {
              "name": "【增值付费功能】基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点), 并输出口语转书面语转写结果,该结果去除语气词、重复词、精简冗余表达,并修正发言人口误,实现口语转书面语的效果,适用于线上、线下会议直接总结为书面会议纪要的场景,仅支持8k_zh/16k_zh引擎",
              "value": 5
            }
          ]
        },
        {
          "paramName": "speaker",
          "isRequired": 0,
          "dataType": "int",
          "title": "说话人分离",
          "description": "是否开启说话人分离 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启 仅支持以下引擎:8k_zh/16k_zh/16k_ms/16k_en/16k_id/16k_zh_large/16k_zh_dialect,且ChannelNum=1时可用)",
              "value": 1
            }
          ]
        },
        {
          "paramName": "speaker_num",
          "isRequired": 0,
          "dataType": "int",
          "title": "说话人分离人数",
          "description": "说话人分离人数 示例值:0 自动分离(最多分离出20个人)",
          "dataMin": 0,
          "dataMax": 20,
          "dataDefault": 0
        },
        {
          "paramName": "emotion",
          "isRequired": 0,
          "dataType": "int",
          "title": "情绪识别能力",
          "description": "情绪识别能力(目前仅支持16k_zh,8k_zh) 支持的情绪分类为:高兴、伤心、愤怒 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启情绪识别,但不在文本展示情绪标签",
              "value": 1
            },
            {
              "name": "开启情绪识别,并且在文本展示情绪标签(该功能需要设置ResTextFormat 大于0)",
              "value": 2
            }
          ]
        },
        {
          "paramName": "emotion_energy",
          "isRequired": 0,
          "dataType": "int",
          "title": "情绪能量值",
          "description": "情绪能量值 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启",
              "value": 1
            }
          ]
        },
        {
          "paramName": "sentence_max",
          "isRequired": 0,
          "dataType": "int",
          "title": "控制单行最大字数",
          "description": "单标点最多字数(目前支持中文普通话引擎)可控制单行字幕最大字数,适用于字幕生成场景 0:不开启该功能 取值范围:[6,40]",
          "dataMin": 0,
          "dataMax": 40,
          "dataDefault": 0
        },
        {
          "paramName": "callback_url",
          "isRequired": 0,
          "dataType": "str",
          "title": "回调 URL",
          "description": "回调 URL,用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果,则无需提交该参数。 回调说明:https://cloud.tencent.com/document/product/1073/55746"
        },
        {
          "paramName": "convert_num",
          "isRequired": 0,
          "dataType": "int",
          "title": "阿拉伯数字智能转换",
          "description": "是否进行阿拉伯数字智能转换。 示例值:0",
          "dataRange": [
            {
              "name": "不转换,直接输出中文数字",
              "value": 0
            },
            {
              "name": "根据场景智能转换为阿拉伯数字",
              "value": 1
            }
          ]
        },
        {
          "paramName": "filter_dirty",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤脏词",
          "description": "是否过滤脏词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤脏词",
              "value": 0
            },
            {
              "name": "过滤脏词",
              "value": 1
            },
            {
              "name": "将脏词替换为 * ",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_punc",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤标点符号",
          "description": "是否过滤标点符号(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤",
              "value": 0
            },
            {
              "name": "过滤句末标点",
              "value": 1
            },
            {
              "name": "过滤所有标点",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_modal",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤语气词",
          "description": "是否过滤语气词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤语气词",
              "value": 0
            },
            {
              "name": "部分过滤",
              "value": 1
            },
            {
              "name": "严格过滤",
              "value": 2
            }
          ]
        },
        {
          "paramName": "hot_word_list",
          "isRequired": 0,
          "dataType": "str",
          "title": "临时热词表",
          "description": "临时热词表:该参数用于提升识别准确率。\n单个热词限制:\"热词|权重\",单个热词不超过30个字符(最 多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;\n临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;\n参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:\nhotword_id:热词表 。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;\nhotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;\n注意:\n• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;\n• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。\n• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。"
        }
      ]
    },
    {
      "category": "tx_asr_recogAudioLM",
      "params_list": [
        {
          "paramName": "model",
          "isRequired": 1,
          "dataType": "str",
          "title": "模型选择",
          "description": "引擎模型类型。 示例值:16k_en",
          "dataRange": [
            {
              "name": "普方大模型引擎【大模型版】。当前模型同时支持中文、多种中文方言等语言的识别,模型参数量极大,语 言模型性能增强,针对电话音频中各类场景、各类中文方言的识别准确率极大提升,点击这里 对比常规版本与普方大模型版本的识别效 果",
              "value": "8k_zh_large"
            },
            {
              "name": "普方英大模型引擎【大模型版】。当前模型同时支持中文、英文、多种中文方言等语言的识别,模型参数量 极大,语言模型性能增强,针对噪声大、回音大、人声小、人声远等低质量音频的识别准确率极大提。",
              "value": "16k_zh_large"
            }
          ]
        },
        {
          "paramName": "channel_num",
          "isRequired": 1,
          "dataType": "int",
          "title": "音频采样率",
          "description": "支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。\n如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。 示例值:0",
          "dataRange": [
            {
              "name": "单声道(16k音频仅支持单声道,请勿设置为双声道)",
              "value": 1
            },
            {
              "name": "双声道(仅支持8k电话音频,且双声道应分别为通话双方)",
              "value": 2
            }
          ]
        },
        {
          "paramName": "text_format",
          "isRequired": 1,
          "dataType": "int",
          "title": "识别结果返回样式",
          "description": "识别结果返回样式。 示例值:0",
          "dataRange": [
            {
              "name": "基础识别结果(仅包含有效人声时间戳,无词粒度的详细识别结果)",
              "value": 0
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值,不含标点)",
              "value": 1
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点)",
              "value": 2
            },
            {
              "name": "基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点),且识别结果按标点 符号分段,适用字幕场景",
              "value": 3
            },
            {
              "name": "【增值付费功能】基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点), 且识别结果按nlp语义分段,适用会议、庭审记录转写等场景,仅支持8k_zh/16k_zh引擎",
              "value": 4
            },
            {
              "name": "【增值付费功能】基础识别结果之上,增加词粒度的详细识别结果(包含词级别时间戳、语速值和标点), 并输出口语转书面语转写结果,该结果去除语气词、重复词、精简冗余表达,并修正发言人口误,实现口语转书面语的效果,适用于线上、线下会议直接总结为书面会议纪要的场景,仅支持8k_zh/16k_zh引擎",
              "value": 5
            }
          ]
        },
        {
          "paramName": "speaker",
          "isRequired": 0,
          "dataType": "int",
          "title": "说话人分离",
          "description": "是否开启说话人分离 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启 仅支持以下引擎:8k_zh/16k_zh/16k_ms/16k_en/16k_id/16k_zh_large/16k_zh_dialect,且ChannelNum=1时可用)",
              "value": 1
            }
          ]
        },
        {
          "paramName": "speaker_num",
          "isRequired": 0,
          "dataType": "int",
          "title": "说话人分离人数",
          "description": "说话人分离人数 示例值:0 自动分离(最多分离出20个人)",
          "dataMin": 0,
          "dataMax": 20,
          "dataDefault": 0
        },
        {
          "paramName": "emotion",
          "isRequired": 0,
          "dataType": "int",
          "title": "情绪识别能力",
          "description": "情绪识别能力(目前仅支持16k_zh,8k_zh) 支持的情绪分类为:高兴、伤心、愤怒 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启情绪识别,但不在文本展示情绪标签",
              "value": 1
            },
            {
              "name": "开启情绪识别,并且在文本展示情绪标签(该功能需要设置ResTextFormat 大于0)",
              "value": 2
            }
          ]
        },
        {
          "paramName": "emotion_energy",
          "isRequired": 0,
          "dataType": "int",
          "title": "情绪能量值",
          "description": "情绪能量值 示例值:0",
          "dataRange": [
            {
              "name": "不开启",
              "value": 0
            },
            {
              "name": "开启",
              "value": 1
            }
          ]
        },
        {
          "paramName": "sentence_max",
          "isRequired": 0,
          "dataType": "int",
          "title": "控制单行最大字数",
          "description": "单标点最多字数(目前支持中文普通话引擎)可控制单行字幕最大字数,适用于字幕生成场景 0:不开启该功能 取值范围:[6,40]",
          "dataMin": 0,
          "dataMax": 40,
          "dataDefault": 0
        },
        {
          "paramName": "callback_url",
          "isRequired": 0,
          "dataType": "str",
          "title": "回调 URL",
          "description": "回调 URL,用户自行搭建的用于接收识别结果的服务URL。如果用户使用轮询方式获取识别结果,则无需提交该参数。 回调说明:https://cloud.tencent.com/document/product/1073/55746"
        },
        {
          "paramName": "convert_num",
          "isRequired": 0,
          "dataType": "int",
          "title": "阿拉伯数字智能转换",
          "description": "是否进行阿拉伯数字智能转换。 示例值:0",
          "dataRange": [
            {
              "name": "不转换,直接输出中文数字",
              "value": 0
            },
            {
              "name": "根据场景智能转换为阿拉伯数字",
              "value": 1
            }
          ]
        },
        {
          "paramName": "filter_dirty",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤脏词",
          "description": "是否过滤脏词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤脏词",
              "value": 0
            },
            {
              "name": "过滤脏词",
              "value": 1
            },
            {
              "name": "将脏词替换为 * ",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_punc",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤标点符号",
          "description": "是否过滤标点符号(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤",
              "value": 0
            },
            {
              "name": "过滤句末标点",
              "value": 1
            },
            {
              "name": "过滤所有标点",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_modal",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤语气词",
          "description": "是否过滤语气词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤语气词",
              "value": 0
            },
            {
              "name": "部分过滤",
              "value": 1
            },
            {
              "name": "严格过滤",
              "value": 2
            }
          ]
        },
        {
          "paramName": "hot_word_list",
          "isRequired": 0,
          "dataType": "str",
          "title": "临时热词表",
          "description": "临时热词表:该参数用于提升识别准确率。\n单个热词限制:\"热词|权重\",单个热词不超过30个字符(最 多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;\n临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;\n参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:\nhotword_id:热词表 。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;\nhotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;\n注意:\n• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;\n• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。\n• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。"
        }
      ]
    },
    {
      "category": "tx_asr_recogSentence",
      "params_list": [
        {
          "paramName": "model",
          "isRequired": 1,
          "dataType": "str",
          "title": "模型选择",
          "description": "引擎模型类型。 示例值:16k_en",
          "dataRange": [
            {
              "name": "中文电话通用",
              "value": "8k_zh"
            },
            {
              "name": "英文电话通用",
              "value": "8k_en"
            },
            {
              "name": "中文通用",
              "value": "16k_zh"
            },
            {
              "name": "中英粤",
              "value": "16k_zh-PY"
            },
            {
              "name": "中文医疗",
              "value": "16k_zh_medical"
            },
            {
              "name": "英语",
              "value": "16k_en"
            },
            {
              "name": "粤语",
              "value": "16k_yue"
            },
            {
              "name": "日语",
              "value": "16k_ja"
            },
            {
              "name": "韩语",
              "value": "16k_ko"
            },
            {
              "name": "越南语",
              "value": "16k_vi"
            },
            {
              "name": "马来语",
              "value": "16k_ms"
            },
            {
              "name": "印度尼西亚语",
              "value": "16k_id"
            },
            {
              "name": "菲律宾语",
              "value": "16k_fil"
            },
            {
              "name": "泰语",
              "value": "16k_th"
            },
            {
              "name": "葡萄牙语",
              "value": "16k_pt"
            },
            {
              "name": "土耳其语",
              "value": "16k_tr"
            },
            {
              "name": "阿拉伯语",
              "value": "16k_ar"
            },
            {
              "name": "西班牙语",
              "value": "16k_es"
            },
            {
              "name": "印地语",
              "value": "16k_hi"
            },
            {
              "name": "法语",
              "value": "16k_fr"
            },
            {
              "name": "德语",
              "value": "16k_de"
            },
            {
              "name": "多方言,支持23种方言(上海话、四川话、武汉话、贵阳话、昆明话、西安话、郑州话、太原话、兰州话、 银川话、西宁话、南京话、合肥话、南昌话、长沙话、苏州话、杭州话、济南话、天津话、石家庄话、黑龙江话、吉林话、辽宁话)",
              "value": "16k_zh_dialect"
            }
          ]
        },
        {
          "paramName": "format",
          "isRequired": 1,
          "dataType": "str",
          "title": "识别的音频格式",
          "description": "识别音频的音频格式。 示例值:wav",
          "dataRange": [
            "wav",
            "pcm",
            "ogg-opus",
            "speex",
            "silk",
            "mp3",
            "m4a",
            "aac",
            "amr"
          ]
        },
        {
          "paramName": "word_info",
          "isRequired": 0,
          "dataType": "int",
          "title": "显示词级别时间戳",
          "description": "是否显示词级别时间戳。 示例值:0",
          "dataRange": [
            {
              "name": "不显示",
              "value": 0
            },
            {
              "name": "显示,不包含标点时间戳。",
              "value": 1
            },
            {
              "name": "显示,包含标点时间戳。",
              "value": 2
            }
          ]
        },
        {
          "paramName": "sample_rate",
          "isRequired": 0,
          "dataType": "int",
          "title": "音频采样率",
          "description": "支持pcm格式的8k音频在与引擎采样率不匹配的情况下升采样到16k后识别,能有效提升识别准确率。\n如:传入 8000 ,则pcm音频采样率为8k,当引擎选用16k_zh, 那么该8k采样率的pcm音频可以在16k_zh引擎下正常识别。 注:此参数仅适用于pcm格式音频,不传入值将维持默认状态,即默认调用的引擎采样率等于pcm音频采样率。 示例值:0",
          "dataRange": [
            8000,
            16000
          ]
        },
        {
          "paramName": "convert_num",
          "isRequired": 0,
          "dataType": "int",
          "title": "阿拉伯数字智能转换",
          "description": "是否进行阿拉伯数字智能转换。 示例值:0",
          "dataRange": [
            {
              "name": "不转换,直接输出中文数字",
              "value": 0
            },
            {
              "name": "根据场景智能转换为阿拉伯数字",
              "value": 1
            }
          ]
        },
        {
          "paramName": "filter_dirty",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤脏词",
          "description": "是否过滤脏词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤脏词",
              "value": 0
            },
            {
              "name": "过滤脏词",
              "value": 1
            },
            {
              "name": "将脏词替换为 * ",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_punc",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤标点符号",
          "description": "是否过滤标点符号(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤",
              "value": 0
            },
            {
              "name": "过滤句末标点",
              "value": 1
            },
            {
              "name": "过滤所有标点",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_modal",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤语气词",
          "description": "是否过滤语气词(目前支持中文普通话引擎)。 示例值:0",
          "dataRange": [
            {
              "name": "不过滤语气词",
              "value": 0
            },
            {
              "name": "部分过滤",
              "value": 1
            },
            {
              "name": "严格过滤",
              "value": 2
            }
          ]
        },
        {
          "paramName": "hot_word_list",
          "isRequired": 0,
          "dataType": "str",
          "title": "临时热词表",
          "description": "临时热词表:该参数用于提升识别准确率。\n单个热词限制:\"热词|权重\",单个热词不超过30个字符(最 多10个汉字),权重1-11或者100,如:“腾讯云|5” 或 “ASR|11”;\n临时热词表限制:多个热词用英文逗号分割,最多支持128个热词,如:“腾讯云|10,语音识别|5,ASR|11”;\n参数 hotword_list(临时热词表) 与 hotword_id(热词表) 区别:\nhotword_id:热词表 。需要先在控制台或接口创建热词表,获得对应hotword_id传入参数来使用热词功能;\nhotword_list:临时热词表。每次请求时直接传入临时热词表来使用热词功能,云端不保留临时热词表。适用于有极大量热词需求的用户;\n注意:\n• 如果同时传入了 hotword_id 和 hotword_list,会优先使用 hotword_list;\n• 热词权重设置为11时,当前热词将升级为超级热词,建议仅将重要且必须生效的热词设置到11,设置过多权重为11的热词将影响整体字准率。\n• 热词权重设置为100时,当前热词开启热词增强同音替换功能(仅支持8k_zh,16k_zh),举例:热词配置“蜜制|100”时,与“蜜制”同拼音(mizhi)的“秘制”的识别结果会被强制替换成“蜜制”。因此建议客户根据自己的实际情况开启该功能。建议仅将重要且必须生效的热词设置到100,设置过多权重为100的热词将影响整体字准率。"
        }
      ]
    },
    {
      "category": "ali_asr_paraformer_realtime",
      "params_list": [
        {
          "paramName": "model",
          "isRequired": 1,
          "dataType": "str",
          "title": "模型选择",
          "description": "引擎模型类型 示例值: paraformer-realtime-v1",
          "dataRange": [
            {
              "name": "Paraformer中文实时语音识别模型 支持16kHz及以上采样率的视频直播 会议等实时场景下的语音识别 ",
              "value": "paraformer-realtime-v1"
            },
            {
              "name": "Paraformer中文实时语音识别模型 支持8kHz电话客服等场景下的实时语音识别 ",
              "value": "paraformer-realtime-8k-v1"
            }
          ]
        },
        {
          "paramName": "format",
          "isRequired": 0,
          "dataType": "str",
          "title": "音频格式",
          "description": "音频格式 示例值: wav",
          "dataRange": [
            "pcm",
            "wav",
            "opus",
            "speex",
            "aac",
            "amr"
          ]
        },
        {
          "paramName": "sample_rate",
          "isRequired": 1,
          "dataType": "int",
          "title": "音频采样率",
          "description": "识别音频采样率 示例值: 16000",
          "dataRange": [
            8000,
            16000
          ]
        },
        {
          "paramName": "filter_modal",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤语气词",
          "description": "过滤语气词 示例值: 0",
          "dataRange": [
            {
              "name": "关闭",
              "value": 0
            },
            {
              "name": "开启",
              "value": 1
            }
          ]
        }
      ]
    },
    {
      "category": "ali_asr_sensevoice",
      "params_list": [
        {
          "paramName": "model",
          "isRequired": 1,
          "dataType": "str",
          "title": "模型选择",
          "description": "指定用于音视频文件转写的SenseVoice模型名,当前为sensevoice-v1。",
          "dataDefault": "sensevoice-v1",
          "dataRange": [
            {
              "name": "语音识别大模型,提供超过50种语言的高精度语音识别、领先的情感和音频事件检测能力。",
              "value": "sensevoice-v1"
            }
          ]
        },
        {
          "paramName": "channel",
          "isRequired": 0,
          "dataType": "int",
          "title": "模型选择",
          "description": "过滤语气词,默认关闭。",
          "dataDefault": 1,
          "dataRange": [
            {
              "name": "单声道",
              "value": 1
            },
            {
              "name": "双声道",
              "value": 2
            }
          ]
        },
        {
          "paramName": "filter_modal",
          "isRequired": 0,
          "dataType": "int",
          "title": "过滤语气词",
          "description": "过滤语气词,默认值:0 默认关闭。",
          "dataDefault": 0,
          "dataRange": [
            {
              "name": "关闭过滤",
              "value": 0
            },
            {
              "name": "开启过滤",
              "value": 1
            }
          ]
        },
        {
          "paramName": "language",
          "isRequired": 0,
          "dataType": "str",
          "title": "识别语言",
          "description": "指定识别语音中语言代码。sensevoice-v1模型只支持配置一个语种。默认使用“auto”自动检测语种。",
          "dataDefault": "auto",
          "dataRange": [
            {
              "name": "自动检测语种",
              "value": "auto"
            },
            {
              "name": "中文(Chinese)",
              "value": "zh"
            },
            {
              "name": "英文(English)",
              "value": "en"
            },
            {
              "name": "粤语(Cantonese)",
              "value": "yue"
            },
            {
              "name": "日语(Japanese)",
              "value": "ja"
            },
            {
              "name": "韩语(Korean)",
              "value": "ko"
            },
            {
              "name": "俄语(Russian)",
              "value": "ru"
            },
            {
              "name": "法语(French)",
              "value": "it"
            },
            {
              "name": "德语(German)",
              "value": "de"
            },
            {
              "name": "西班牙语(Spanish)",
              "value": "es"
            },
            {
              "name": "加泰罗尼亚语(Catalan)",
              "value": "ca"
            },
            {
              "name": "印度尼西亚语(Indonesian)",
              "value": "id"
            },
            {
              "name": "泰语(Thai)",
              "value": "th"
            },
            {
              "name": "荷兰语(Dutch)",
              "value": "nl"
            },
            {
              "name": "葡萄牙语(Portuguese)",
              "value": "pt"
            },
            {
              "name": "捷克语(Czech)",
              "value": "cs"
            },
            {
              "name": "波兰语(Polish)",
              "value": "pl"
            },
            {
              "name": "希腊语(Greek)",
              "value": "el"
            },
            {
              "name": "马来语(Malay)",
              "value": "ms"
            },
            {
              "name": "塔加洛语(Tagalog)",
              "value": "tl"
            },
            {
              "name": "保加利亚语(Bulgarian)",
              "value": "bg"
            },
            {
              "name": "克罗地亚语(Croatian)",
              "value": "hr"
            },
            {
              "name": "丹麦语(Danish)",
              "value": "da"
            },
            {
              "name": "土耳其语(Turkish)",
              "value": "tr"
            },
            {
              "name": "越南语(Vietnamese)",
              "value": "vi"
            },
            {
              "name": "希伯来语(Hebrew )",
              "value": "he"
            },
            {
              "name": "匈牙利语(Hungarian)",
              "value": "hu"
            },
            {
              "name": "乌克兰语(Ukrainian)",
              "value": "uk"
            },
            {
              "name": "乌兹别克语(Uzbek)",
              "value": "uz"
            },
            {
              "name": "挪威(Norwegian)",
              "value": "no"
            },
            {
              "name": "罗马尼亚(Romanian)",
              "value": "ro"
            },
            {
              "name": "瑞典语(Swedish)",
              "value": "sv"
            },
            {
              "name": "波斯语(Persian)",
              "value": "fa"
            },
            {
              "name": "泰米尔语(Tamil)",
              "value": "ta"
            },
            {
              "name": "阿塞拜疆语(Azerbaijani)",
              "value": "az"
            },
            {
              "name": "孟加拉语(Bengali)",
              "value": "bn"
            },
            {
              "name": "缅甸语(Myanmar)",
              "value": "my"
            },
            {
              "name": "高棉语(Khmer )",
              "value": "km"
            },
            {
              "name": "印地语(Hindi)",
              "value": "hi"
            },
            {
              "name": "卡纳达语(Kannada )",
              "value": "kn"
            },
            {
              "name": "老挝语(Lao)",
              "value": "lo"
            },
            {
              "name": "马拉雅拉姆语(Malayalam)",
              "value": "ml"
            },
            {
              "name": "马拉地语(Marathi)",
              "value": "mr"
            },
            {
              "name": "蒙古语(Mongolian)",
              "value": "mn"
            },
            {
              "name": "尼泊尔语(Nepali)",
              "value": "ne"
            },
            {
              "name": "旁遮普语(Punjabi )",
              "value": "pa"
            },
            {
              "name": "僧伽罗语(Sinhala)",
              "value": "si"
            },
            {
              "name": "斯瓦希里语(Swahili)",
              "value": "sw"
            },
            {
              "name": "泰卢固语(Telugu)",
              "value": "te"
            },
            {
              "name": "乌尔都语(Urdu)",
              "value": "ur"
            },
            {
              "name": "豪萨语(Hausa)",
              "value": "ha"
            }
          ]
        }
      ]
    }
  ]
}
上一页
语音识别请求(汇总)
下一页
任务(task)数据获取
Built with