MindCraft AI
  1. 语音识别请求
MindCraft AI
  • 在线调用-使用说明
  • 基础模型
    • 大语言模型 LLM
      • 其他平台上使用API
        • DIFY上使用API
        • ONE-API 上使用API
        • FastGPT 上使用API
        • 沉浸式翻译(浏览器插件) 上使用API
        • Cursor上使用MindCraft API
        • Cherry Studio上使用MindCraft API
      • LLM 模型列表+参数
      • LLM 模型对话调用
    • 语音识别 ASR
      • 语音识别请求
        • 腾讯 一句话识别
          POST
        • 腾讯 文件识别(进task任务)
          POST
        • 腾讯大模型 文件识别(进task任务)
          POST
        • 阿里 paraformer
          POST
        • 阿里 sensevoice(进task任务)
          POST
        • 字节跳动 一句话识别
          POST
      • 语音识别请求(汇总)
        POST
      • 模型列表及参数获取
        GET
      • 任务(task)数据获取
        GET
    • 语音合成 TTS
      • TTS 音色列表
      • 语音合成请求
        • 字节跳动 通用合成
        • MiniMax 短文本 V2
        • MiniMax 长文本
        • 腾讯 通用合成-普通音色
        • 腾讯 通用合成-精品音色
        • 腾讯 长文本合成-普通音色
        • 腾讯 长文本合成-精品音色
        • 科大讯飞 通用合成
        • 阿里云 语音合成CosyVoice
        • 百度 短文本合成
      • 语音合成请求(汇总)
      • 模型列表及参数获取
      • 任务(task)数据获取
    • 图片生成 Images Generations
      • 图片生成请求
        • Flux.1 文生图
        • 智谱 文生图
        • 欧朋ai 文生图
        • 通义万象 文生图
        • 豆包 文生图
        • DeepSeek 文生图
        • MiniMax 文生图
        • Gemini 文生图 Copy
      • 图片生成请求(汇总)
      • 模型列表及参数获取
    • 视频合成 Video Generations
      • 视频合成请求
        • 智谱 文生视频
        • 智谱 图片生视频
        • MiniMax 文生视频
        • MiniMax 图生视频
        • 腾讯 文生视频
        • 通义万象 文生视频
        • 通义万象 图生视频
        • 豆包 文生视频
        • 豆包 图生视频
      • 视频合成请求(汇总)
      • 模型列表及参数获取
      • 任务(task)数据获取
    • RAG模型
      • embedding 多模态向量模型
      • embedding 文字向量模型
      • rerank 文字向量模型
    • 音色处理 voice processing
      • 音色克隆
        • 声音克隆流程
        • 上传音频
        • 生成试听
        • 保存克隆
    • 图生图 Image to Image
      • make局部编辑
        • 提取 mask
        • 消除 mask
        • 重绘 mask
        • 扩图 mask
      • 图生图
        • i2i 图片一致性
        • i2i 指令编辑模型
        • i2i 超分辨率模型
        • i2i 风格化模型
  • 智能体
    • 聊天机器人
      • 文件切片上传
        • 文件切片上传 获取上传UUID
        • 文件切片上传 上传UUID认证
      • chat_bot_v1 接口明细
        • chat_bot_v1(标准standard)
        • chat_bot_v1(专家pro)
        • chat_bot_v1(自定义customize)
      • chat_bot_v1 接口汇总
      • chat_bot 参数获取
    • 聊天机器人V2(socket)
      • ChatBot 智能体(socket)
    • 聊天机器人V3 AI角色(socket)
      • 角色资源加载规则
      • 角色人设加载
        • AI角色UUIDS数据
        • 用户人设UUIDS数据
      • ChatBot 智能体V3(socket)
    • socket Device认证
      • device 获取token
  • 对话数据
    • session 对话
      • message 聊天数据
        • message 获取列表
        • message 创建消息
        • message 修改消息
        • message 删除数据
        • message 清空记录
      • session 获取对话列表
      • session 创建新对话
      • session 更改对话
      • session 删除对话
  1. 语音识别请求

腾讯 文件识别(进task任务)

POST
https://api.mindcraft.com.cn/v1/audio/transcriptions
提示
headers 需要添加 "Bearer {{api_key}}" 用来认证
点击获取api_key

使用 openai的py包 代码请求#

录音文件上传(进task任务)

请求参数

Header 参数
Authorization
string 
认证信息
必需
示例值:
Bearer {{api_key}}
Body 参数multipart/form-data
file
file 
上传文件
必需
model
enum<string> 
必需
调用模型(存在腾讯和阿里模型 需要注意区分)
枚举值:
TX_ASR_long_8k_zhTX_ASR_long_8k_enTX_ASR_long_16k_zhTX_ASR_long_16k_zh-PYTX_ASR_long_16k_zh_medicalTX_ASR_long_16k_enTX_ASR_long_16k_yueTX_ASR_long_16k_jaTX_ASR_long_16k_koTX_ASR_long_16k_viTX_ASR_long_16k_msTX_ASR_long_16k_idTX_ASR_long_16k_filTX_ASR_long_16k_thTX_ASR_long_16k_ptTX_ASR_long_16k_trTX_ASR_long_16k_arTX_ASR_long_16k_esTX_ASR_long_16k_hiTX_ASR_long_16k_frTX_ASR_long_16k_deTX_ASR_long_16k_zh_dialect
示例值:
TX_ASR_long_8k_zh
channel_num
enum<integer> 
必需
文件上传声道 单声道 双声道
枚举值:
12
示例值:
1
format
enum<string> 
识别文件类型
必需
枚举值:
wavpcmogg-opusspeexsilkmp3m4aaacamrraw
示例值:
pcm
text_format
enum<integer> 
必需
文件识别结果返回样式
枚举值:
012345
示例值:
0
filter_modal
enum<integer> 
过滤语气词
可选
枚举值:
012
示例值:
0
filter_dirty
enum<integer> 
过滤脏话
可选
枚举值:
012
示例值:
0
filter_punc
enum<integer> 
过滤标点符号
可选
枚举值:
012
示例值:
1
convert_num
enum<integer> 
转换中文数字
可选
枚举值:
01
示例值:
1
hot_word_list
string  | null 
可选
临时热词表 格式: "热词|权重" 如: "腾讯云|10,语音识别|5"
示例值:
腾讯云|10,语音识别|5
speaker
enum<integer> 
可选
是否开启说话人分离 示例值:0
枚举值:
01
示例值:
0
speaker_num
integer 
可选
分离人数量 示例值:0 0自动分离(最大20人)
>= 0<= 20
示例值:
0
emotion
enum<integer> 
可选
情绪识别能力(目前仅支持16k_zh,8k_zh) 支持的情绪分类为:高兴、伤心、愤怒 示例值:0
枚举值:
012
示例值:
0
emotion_energy
enum<integer> 
可选
情绪能量值 示例值:0
枚举值:
01
示例值:
0
sentence_max
integer 
可选
单标点最多字数(目前支持中文普通话引擎)可控制单行字幕最大字数,适用于字幕生成场景 0:不开启该功能 取值范围:[6,40]
>= 0<= 40
示例值:
20
callback_url
string 
可选
成功后回调url 腾讯回调说明
示例值:
https://cloud.tencent.com/document/product/1073/55746

示例代码

Shell
JavaScript
Java
Swift
Go
PHP
Python
HTTP
C
C#
Objective-C
Ruby
OCaml
Dart
R
请求示例请求示例
Shell
JavaScript
Java
Swift
curl --location --request POST 'https://api.mindcraft.com.cn/v1/audio/transcriptions' \
--header 'Authorization: Bearer ' \
--form 'file=@""' \
--form 'model="TX_ASR_long_8k_zh"' \
--form 'channel_num="1"' \
--form 'format="pcm"' \
--form 'text_format="0"' \
--form 'filter_modal="0"' \
--form 'filter_dirty="0"' \
--form 'filter_punc="1"' \
--form 'convert_num="1"' \
--form 'hot_word_list="腾讯云|10,语音识别|5"' \
--form 'speaker="0"' \
--form 'speaker_num="0"' \
--form 'emotion="0"' \
--form 'emotion_energy="0"' \
--form 'sentence_max="20"'

返回响应

🟢200成功
application/json
Body
id
string 
请求ID
必需
category
string 
ASR 类型
必需
model
string 
ASR 模型
必需
data
object 
必需
category
string 
ASR 类型
必需
model
string 
ASR 模型
必需
text
string 
识别内容
必需
word_list
array [object {4}] 
必需
audio_duration
integer 
腾讯参数 语音长度
必需
word_size
integer 
腾讯参数 字符长度
必需
示例
{
  "id": "55b3ec70155b45fba78dfb0e3fdad409",
  "category": "tx_asr_recogSentence",
  "model": "8k_zh",
  "data": {
    "category": "tx_asr_recogSentence",
    "model": "8k_zh",
    "text": "燕少飞",
    "audio_duration": 1118,
    "word_size": 3,
    "word_list": [
      {
        "text": "燕",
        "begin_time": 40,
        "end_time": 265
      },
      {
        "text": "少",
        "begin_time": 265,
        "end_time": 490
      },
      {
        "text": "飞",
        "begin_time": 490,
        "end_time": 810
      }
    ]
  }
}
🟢200task任务请求
上一页
腾讯 一句话识别
下一页
腾讯大模型 文件识别(进task任务)
Built with