科大讯飞
  1. 实时语音转写
科大讯飞
  • iOS SDK接入文档
  • 平台文档
    • 开发者新手指南
      • 平台简介
      • 快速指引
    • 服务协议
      • 讯飞开放平台用户服务协议
      • 讯飞星火认知大模型接口服务协议
      • 开发者应用创建规则
      • 讯飞开放平台隐私政策
      • 开发者用户个人信息保护合规指引
      • 开放平台SDK合规使用说明
      • SDK隐私政策总览
      • SDK合规使用说明总览
      • 科大讯飞儿童隐私保护政策
      • 讯飞开放平台SLA协议
      • 讯飞开放平台订购协议
    • 用户认证须知
      • 用户认证简介
      • 企业实名认证
      • 个人实名认证
      • 初创团队认证
      • 学生认证
      • 公益项目认证
      • 个人升级企业认证
    • 财务
      • 退款规则及退款流程
      • 财务相关说明
    • 账号
      • 账号注销与删除流程
      • 账号与应用说明
    • 会员
      • 会员权益详情
      • 会员时效说明
      • 会员试用版
  • 星火认知大模型
    • SparkDesk
      • SparkDesk使用指南
      • SparkDesk隐私政策
      • SparkDesk用户协议
    • 星火认知大模型
      • 服务说明
      • 通用鉴权URL生成说明
      • Spark Android SDK接入文档
      • Linux SDK接入文档
      • Windows SDK接入文档
      • 讯飞星火认知大模型隐私政策
      • Web 文档
        • 星火认知大模型Web API文档
        • 星火大模型V1.5
        • 星火大模型V2
        • 星火大模型V3
    • 星火知识库
      • 星火知识库 API 文档
        • 星火知识库 API 文档
        • 文档问答
        • 文档上传
        • 文档总结
        • 获取文档总结/概要信息
      • 新版Embedding API文档
    • 图片生成
      • 图片生成 API
    • 图片理解
      • 图片理解 API
    • 大模型定制训练平台
      • 产品使用说明
      • 星火微调服务Web API文档文档
        • 星火微调服务Web API文档文档
        • V1.5版本
        • 微调模型
  • 语音识别
    • 语音唤醒(新版)
    • 语音听写
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • Java SDK 文档
      • 音频文件格式说明
      • 语音听写服务说明
      • 语音听写(流式版)SDK隐私政策
      • 语音听写(流式版)SDK合规使用说明
      • HarmonyOS SDK 文档
      • 语音听写自训练平台
      • 语音听写(流式版)WebAPI
    • 语音转写
      • 语音转写服务说明
      • 语音转写 服务协议
      • WebAPI 文档
        • 语音转写 API 文档
        • 文件上传
        • 查询结果
    • 极速语音转写
      • 极速语音转写 API 文档
      • 小文件上传
      • 初始化分块信息
      • 分块上传
      • 分块上传完成
      • 创建任务
      • 查询任务
    • 实时语音转写
      • 实时语音转写服务说明
      • 实时语音转写 API
    • 离线语音听写
      • Android SDK 文档
      • 离线语音听写服务说明
      • 离线语音听写SDK隐私政策
      • 离线语音听写SDK合规使用说明
    • 离线语音听写(新版)
      • Android SDK 文档
      • 离线语音听写隐私政策
    • 语音唤醒
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • 语音唤醒服务说明
      • 离线唤醒SDK隐私政策
    • 语音唤醒(新版)
      • Android SDK 文档
      • Linux SDK 文档
      • 语音唤醒隐私政策
    • 离线命令词识别
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • 离线命令词识别服务说明
      • 离线命令词识别SDK隐私政策
      • 离线命令词SDK合规使用说明
  • 语音合成
    • 在线语音合成
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • Java SDK 文档
      • 服务协议
      • 在线语音合成服务说明
      • 发音人自训练平台使用指南
      • WebAPI
    • 长文本语音合成
      • 长文本语音合成 API 文档
      • 创建任务
      • 查询任务
    • 离线语音合成
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • 服务协议
      • 离线语音合成服务说明
    • AI虚拟人技术
      • Web SDK 2.0 接入指南
      • Android-SDK
      • iOS-SDK
      • Web API 文档
        • AI虚拟人技术 API 文档
        • 音频驱动
        • 启动
        • 文本驱动
        • 停止
        • 心跳
  • 语音扩展
    • 语音评测(流式版)
      • 接口说明
      • Android SDK 文档
      • iOS SDK 文档
      • Linux SDK 文档
      • Windows SDK 文档
      • 语音评测SDK隐私政策
      • 语音评测(流式版)API
    • 语音评测suntone
      • 语音评测suntone API
    • 离线变声
      • Android SDK 集成文档
    • 音色转换
      • 音色转换 API
    • 性别年龄识别
      • 性别能力识别 API
    • 声纹识别
      • Web API 文档
      • 声纹识别 API
    • 歌曲识别
      • 歌曲识别 API
    • 歌曲识别 ACRCloud
      • 接口说明
      • 哼唱识别
      • 音乐识别
    • AI 客服中间件
      • 接口说明
      • 获取token
      • 查询配置
      • 直接外呼
      • 创建外呼任务
      • 提交任务数据
      • 启动外呼任务
      • 暂停外呼任务
      • 删除外呼任务
      • 查询任务
      • 结果数据推送
      • 话单推送
      • 录音推送
      • 会话推送
      • 呼入话术上下文动态数据获取
  • 自然语言处理
    • 文本纠错
      • 文本纠错 API
      • 黑白名单上传
    • 公文校队
      • 公文校对 API
    • 文本合规
      • 文本合规 API
      • 新增黑名单词库
      • 根据lib_id添加黑名单词条
      • 根据lib_id查询词条明细
      • 根据lib_id删除词条
      • 根据appid查询账户下所有词库
      • 根据lib_id删除词库
      • 创建白名单库
      • 根据lib_id添加放行词条
      • 根据lib_id查询词条详情
      • 根据lib_id删除词条信息
      • 根据appid查询所有词库列表
      • 根据lib_id删除词库
    • 图片合规
      • 图片合规 API
    • 音频合规
      • 音频合规 API
    • 视频合规
      • 视频合规 API
    • 文本改写
      • 文本改写 API
    • 机器翻译
      • 机器翻译(新) API
    • 机器翻译niutrans
      • 机器翻译niutrans API
    • 同声传译
      • 同声传译 API 
    • 离线分词
      • Android SDK 文档
  • 人脸识别
    • 人脸验证与检索
      • Android SDK 文档
      • iOS SDK 文档
      • 人脸验证与检索SDK隐私政策
      • 人脸验证与检索SDK合规使用说明
    • 人脸对比
      • 人脸比对 API
    • 人脸比对sensetime
      • 人脸比对sensetime API
    • 人脸水印照比对
      • 人脸水印照比对 API
    • 静默活体检测
      • 静默活体检测 API
    • 配合式活体检测
      • 配合式活体检测 API
    • 静默活体检测sensetime
      • 静默活体检测sensetime API
    • 人脸检测和属性分析
      • 人脸检测和属性分析 API
    • 人脸特征分析tuputech
      • 年龄 API
      • 颜值 API
      • 性别 API
      • 表情 API
  • 文字识别
    • 通用文字识别
      • 通用文字识别 API
    • 通用文字识别
      • 通用文字识别 intsig API
    • 手写文字识别
      • 手写文字识别 API
    • 印刷文字识别
      • 印刷文字识别 API
    • 印刷文字识别(多语种)
      • 印刷文字识别(多语种)
    • 印刷文字识别(多语种)intsig
      • 印刷文字识别(多语种)intsig API
    • 图片文档还原
      • 图片文档还原 API 
    • 国内通用票据识别
      • 接口说明
      • 国内通用票据识别 API
    • 离线OCR
      • Android SDK 文档
    • 名片识别 intsig
      • 名片识别 API
    • 身份证识别 intsig
      • 身份证识别 intsig API
    • 银行卡识别 intsig
      • 银行卡识别 API
    • 营业执照识别 intsig
      • 营业执照识别 intsig API
    • 增值税发票识别 intsig
      • 增值税发票识别 intsig API
    • 拍照速算识别
      • 接口说明
      • 拍照速算识别 API
    • 公式识别
      • 接口说明
      • 公式识别 API
    • 指尖文字识别
      • 接口说明
      • 指尖文字识别 API
    • 身份证识别
      • 接口说明
      • 身份证识别 API
    • 增值税发票识别
      • 接口说明
      • 增值税发票识别 API
    • 营业执照识别
      • 接口说明
      • 营业执照识别 API
    • 火车票识别
      • 接口说明
      • 火车票识别 API
    • 出租车发票识别
      • 接口说明
      • 出租车发票识别 API
  • 图像识别
    • 场景识别
      • 场景识别 API
    • 物体识别
      • 物体识别 API
    • 场所识别
      • 场所识别 API 文档
  • 基础服务
    • 云服务器 CVM
      • 云服务器 CVM 产品简介
      • 快速入门
      • 服务协议
  • 解决方案
    • 签到解决方案
      • SaaS操作文档
    • 智能硬件通用方案
      • 智能硬件通用方案说明
      • 麦克风阵列Android SDK
      • 麦克风阵列Linux SDK
      • 双麦阵列设计参考
      • 麦克风阵列录音要求
      • 语音唤醒Android SDK
      • 语音唤醒Linux SDK
      • 离线声纹Android SDK
      • 离线声纹Linux SDK
  • MSC API 文档
    • Android
      • 文件列表
      • SDK初始化
      • 语音识别(Recognizer)
      • 语音合成(Synthesizer)
      • 语音评测(Evaluator)
      • 语音唤醒(Wakeuper)
      • 声纹人脸(Verifier)
      • Android 常量字段值
      • 基础类
    • IOS
      • 文件列表
      • SDK初始化
      • 语音识别(Recognizer)
      • 语音合成(Synthesizer)
      • 语音评测(Evaluator)
      • 语音唤醒(Wakeuper)
      • 声纹人脸(Verifier)
      • 基础类
    • Windows&Linux
      • 文件列表
      • API 文档
    • Java
      • 所有类列表
      • SDK初始化
      • 语音识别(Recognizer)
      • 语音合成(Synthesizer)
      • 常量字段值
      • 基础类
  1. 实时语音转写

实时语音转写 API

ws[s]: //rtasr.xfyun.cn/v1/ws

接口说明#

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。
支持的音频格式: 采样率为16K,采样深度为16bit的pcm_s16le音频

#接口Demo#

示例demo请点击 这里 下载。
目前仅提供部分开发语言的demo,其他语言请参照下方接口文档进行开发。
也欢迎热心的开发者到 讯飞开放平台社区 分享你们的demo。

#接口要求#

集成实时语音转写API时,需按照以下要求。
内容说明
请求协议ws[s] (为提高安全性,强烈推荐wss)
请求地址ws[s]: //rtasr.xfyun.cn/v1/ws?{请求参数} 注:服务器IP不固定,为保证您的接口稳定,请勿通过指定IP的方式调用接口,使用域名方式调用
接口鉴权签名机制,详见数字签名
字符编码UTF-8
响应格式统一采用JSON格式
开发语言任意,只要可以向讯飞云服务发起WebSocket请求的均可
音频属性采样率16k、位长16bit、单声道
音频格式pcm
数据发送建议音频流每40ms发送1280字节
语言种类中文普通话、中英混合识别、英文,小语种以及中文方言可以到控制台-实时语音转写-方言/语种处添加试用或购买

#接口调用流程#

注: 若需配置IP白名单,请前往控制台。IP白名单规则请参照 IP白名单。
实时语音转写接口调用包括两个阶段:握手阶段和实时通信阶段。

#握手阶段#

接口地址
    ws://rtasr.xfyun.cn/v1/ws?{请求参数}
    或
    wss://rtasr.xfyun.cn/v1/ws?{请求参数}
参数格式
    key1=value1&key2=value2…(key和value都需要进行urlencode)
参数说明
参数类型必须说明示例
appidstring是讯飞开放平台应用ID595f23df
tsstring是当前时间戳,从1970年1月1日0点0分0秒开始到现在的秒数1512041814
signastring是加密数字签名(基于HMACSHA1算法)IrrzsJeOFk1NGfJHW6SkHUoN9CU=
langstring否实时语音转写语种,不传默认为中文语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:"lang=en" 若未授权无法使用会报错10110
transTypestring否normal表示普通翻译,默认值normal;例如:transType="normal" 注意:需控制台开通翻译功能
transStrategyint否策略1,转写的vad结果直接送去翻译; 策略2,返回中间过程中的结果; 策略3,按照结束性标点拆分转写结果请求翻译; 建议使用策略2例如:transStrategy=2 注意:需控制台开通翻译功能
targetLangString否目标翻译语种:控制把源语言转换成什么类型的语言; 请注意类似英文转成法语必须以中文为过渡语言,即英-中-法,暂不支持不含中文语种之间的直接转换; 中文:cn 英文:en 日语:ja 韩语:ko 俄语:ru 法语:fr 西班牙语:es 越南语:vi 广东话:cn_cantonese例如:targetLang="en" 如果使用中文实时翻译为英文传参示例如下: "&lang=cn&transType=normal&transStrategy=2&targetLang=en" 注意:需控制台开通翻译功能
puncstring否标点过滤控制,默认返回标点,punc=0会过滤结果中的标点0
pdstring否垂直领域个性化参数: 法院: court 教育: edu 金融: finance 医疗: medical 科技: tech 运营商: isp 政府: gov 电商: ecom 军事: mil 企业: com 生活: life 汽车: car设置示例:pd="edu" 参数pd为非必须设置,不设置参数默认为通用
vadMdnint否远近场切换,不传此参数或传1代表远场,传2代表近场设置示例:vadMdn=2
roleTypeint否是否开角色分离,默认不开启,传2开启 (效果持续优化中)设置示例:roleType=2
engLangTypeint否语言识别模式,默认为模式1中英文模式: 1:自动中英文模式 2:中文模式,可能包含少量英文 4:纯中文模式,不包含英文设置示例:engLangType=4

#signa生成#

1.获取baseString,baseString由appid和当前时间戳ts拼接而成,假如appid为595f23df,ts为1512041814,则baseString为
595f23df1512041814
2.对baseString进行MD5,假如baseString为上一步生成的595f23df1512041814,MD5之后则为
0829d4012497c14a30e7e72aeebe565e
3.以apiKey为key对MD5之后的baseString进行HmacSHA1加密,然后再对加密后的字符串进行base64编码。
假如apiKey为d9f4aa7ea6d94faca62cd88a28fd5234,MD5之后的baseString为上一步生成的0829d4012497c14a30e7e72aeebe565e,
则加密之后再进行base64编码得到的signa为
IrrzsJeOFk1NGfJHW6SkHUoN9CU=
备注:
apiKey:接口密钥,在应用中添加实时语音转写服务时自动生成,调用方注意保管;
signa的生成公式:HmacSHA1(MD5(appid + ts), api_key),具体的生成方法详见【调用示例】;

#请求示例#

	ws://rtasr.xfyun.cn/v1/ws?appid=595f23df&ts=1512041814&signa=IrrzsJeOFk1NGfJHW6SkHUoN9CU=&pd=edu

#返回值#

结果格式为json,字段说明如下:
参数类型说明
actionstring结果标识,started:握手,result:结果,error:异常
codestring结果码(具体见错误码)
datastring结果数据
descstring描述
sidstring会话ID
其中sid字段主要用于DEBUG追查问题,如果出现问题,可以提供sid帮助确认问题。
成功
	{
	    
	    "action":"started",
		"code":"0",
		"data":"",
		"desc":"success",
		"sid":"rta0000000a@ch312c0e3f63609f0900"
	}
失败
	{
	    "action":"error",
		"code":"10110",
		"data":"",
		"desc":"invalid authorization|illegal signa",
		"sid":"rta0000000b@ch312c0e3f65f09f0900"
	}

#实时通信阶段#

握手成功后,进入实时通信阶段,此时客户端的主动操作有两种:上传数据和上传结束标识,被动操作有两种:接收转写结果和错误

#上传数据#

在实时转写过程中,客户端不断构造binary message发送到服务端,内容是音频的二进制数据。此操作的频率影响到文字结果展现的实时性。
注意:
1.建议音频流每40ms发送1280字节,发送过快可能导致引擎出错; 2.音频发送间隔超时时间为15秒,超时服务端报错并主动断开连接。

#上传结束标志#

音频数据上传完成后,客户端需发送一个特殊的binary message到服务端作为结束标识,内容是:
 	{"end": true}

#接收转写结果#

交互过程中,服务端不断返回 text message (转写结果) 到客户端。当所有结果发送完毕后,服务端断开连接,交互结束。
结果示例:
	{
    	    "action":"result",
    	    "code":"0",
    		"data":"{\"cn\":{\"st\":{\"bg\":\"820\",\"ed\":\"0\",\"rt\":[{\"ws\":[{\"cw\":[{\"w\":\"啊\",\"wp\":\"n\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"喂\",\"wp\":\"n\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"!\",\"wp\":\"p\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"你好\",\"wp\":\"n\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"!\",\"wp\":\"p\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"我\",\"wp\":\"n\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"是\",\"wp\":\"n\"}],\"wb\":0,\"we\":0},{\"cw\":[{\"w\":\"上\",\"wp\":\"n\"}],\"wb\":0,\"we\":0}]}],\"type\":\"1\"}},\"seg_id\":5}\n",
    		"desc":"success",
    		"sid":"rta0000000e@ch312c0e3f6bcc9f0900"
	}
其中data为转写结果的json字符串
	data:
		{
		    "cn":{
		        "st":{
		            "bg":"820",
		            "ed":"0",
		            "rt":[{
	                    "ws":[{
                            "cw":[{
                                "w":"啊",
                                "wp":"n"
                            }],
                            "wb":0,
                            "we":0
                        },{
                        	"cw":[{
                                "w":"喂",
                                "wp":"n"
                            }],
                            "wb":0,
                            "we":0
                        },{
                            "cw":[{
                                "w":"!",
                                "wp":"p"
                            }],
                            "wb":0,
                            "we":0
                        },{
                            "cw":[{
                                "w":"你好",
                                "wp":"n"
                            }],
                            "wb":0,
                            "we":0
                        },{
                            "cw":[{
                            	"w":"!",
								"wp":"p"
                            }],
                            "wb":0,
                            "we":0
						},{
                            "cw":[{
                                "w":"我",
                                "wp":"n"
                            }],
	                        "wb":0,
	                        "we":0
                    	},{
                        	"cw":[{
                                "w":"是",
                                "wp":"n"
                            }],
	                        "wb":0,
	                        "we":0
	                    },{
	                        "cw":[{
	                                "w":"上",
	                                "wp":"n"
	                        }],
	                        "wb":0,
	                        "we":0
                    	}]
	                }],
		            "type":"1"
		        }
		    },
		    "seg_id":5
		}
结果示例(开启翻译功能):
{
  "action": "result",
  "code": "0",
  "data": "{\"biz\":\"trans\",\"dst\":\" the bright moonlight in front of the bed, suspected to be frost on the ground, looked up at the bright moon, bowed his head and thought of his hometown.\",\"isEnd\":false,\"segId\":12,\"src\":\"床前明月光,疑是地上霜,举头望明月,低头思故乡。\",\"type\":0,\"bg\":0,\"ed\":4770}",
  "desc": "success",
  "sid": "rta00004fda@dx1f1c148be1d9000100"
}
其中data为转写结果的json字符串(开启翻译功能):
{
  "biz": "trans",
  "dst": " the bright moonlight in front of the bed, suspected to be frost on the ground, looked up at the bright moon, bowed his head and thought of his hometown.",
  "isEnd": false,
  "segId": 12,
  "src": "床前明月光,疑是地上霜,举头望明月,低头思故乡。",
  "type": 0,
  "bg": 0,
  "ed": 4770
}
转写结果data字段说明如下:
字段含义描述
bg句子在整段语音中的开始时间,单位毫秒(ms)中间结果的bg为准确值
ed句子在整段语音中的结束时间,单位毫秒(ms)中间结果的ed为0
w词识别结果
wp词标识n-普通词;s-顺滑词(语气词);p-标点
wb词在本句中的开始时间,单位是帧,1帧=10ms 即词在整段语音中的开始时间为(bg+wb*10)ms中间结果的 wb 为 0
we词在本句中的结束时间,单位是帧,1帧=10ms 即词在整段语音中的结束时间为(bg+we*10)ms中间结果的 we 为 0
type结果类型标识0-最终结果;1-中间结果
seg_id转写结果序号从0开始
biz业务标识字段,开启翻译功能后值为 trans翻译功能标识
src送翻译的原始文本音频对应的识别文本
dst目标语种翻译文本结果与原始文本src对应
isEnd翻译结束标识如果为 true,标识翻译结果已推送完成
rl1、分离的角色编号,需开启角色分离的功能才返回对应的分离角色编号。 2、角色编号从1开始计算。 3、该字段只有在角色分离功能打开时出现。该值只有角色切换时才会变化,其余时值为0。例如角色A开始说话rl=1,后面角色A说话rl都是0,等到角色B开始说话时,rl=2,角色B继续说话rl又变回0 。取值正整数

#接收错误信息#

交互过程中,在服务端出现异常而中断服务时(如会话超时),会将异常信息以 text message 形式返回给客户端并关闭连接。

#白名单#

在调用该业务接口时
若关闭IP白名单,接口认为IP不限,不会校验IP。
若打开IP白名单,则服务端会检查调用方IP是否在讯飞开放平台配置的IP白名单中,对于没有配置到白名单中的IP发来的请求,服务端会拒绝服务。
IP白名单规则
IP白名单,在 控制台-我的应用-相应服务的应用管理卡片上 编辑,保存后五分钟左右生效;
不同Appid的不同服务都需要分别设置IP白名单;
IP白名单需设置为外网IP,请勿设置局域网IP。
如果服务器返回结果如下所示(illegal client_ip),则表示由于未配置IP白名单或配置有误,服务端拒绝服务。
{
	"action": "error",
	"code": "10105",
	"data": "",
	"desc": "illegal access|illegal client_ip: xx.xx.xx.xx",
	"sid": "rta..."
}

#错误码#

错误码描述说明处理方式
0success成功
10105illegal access没有权限检查apiKey,ip,ts等授权参数是否正确
10106invalid parameter无效参数上传必要的参数, 检查参数格式以及编码
10107illegal parameter非法参数值检查参数值是否超过范围或不符合要求
10110no license无授权许可检查参数值是否超过范围或不符合要求
10700engine error引擎错误提供接口返回值,向服务提供商反馈
10202websocket connect errorwebsocket连接错误检查网络是否正常
10204websocket write error服务端websocket写错误检查网络是否正常,向服务提供商反馈
10205websocket read error服务端websocket读错误检查网络是否正常,向服务提供商反馈
16003basic component error基础组件异常重试或向服务提供商反馈
10800over max connect limit超过授权的连接数确认连接数是否超过授权的连接数

#调用示例#

注: demo只是一个简单的调用示例,不适合直接放在复杂多变的生产环境使用
实时语音转写demo go语言
实时语音转写demo python2语言
实时语音转写demo python3语言
实时语音转写demo java语言 支持ws不支持wss
实时语音转写demo java语言 ws和wss均支持
实时语音转写demo nodejs语言
实时语音转写demo js语言
讯飞开放平台AI能力-JAVASDK: Github地址
讯飞开放平台AI能力-PHPSDK: Github地址

#常见问题#

#实时语音转写支持什么平台?#

答:实时转写只支持webapi接口,开放平台“实时语音转写”需要WebSocket接入,针对是有编程基础的开发者用户。如果您是个人用户,不想通过编程方式直接实现语音转写功能,可以去讯飞听见官网,了解语音转写功能的更多详情。

#实时语音转写支持什么语言?#

答:中文普通话、中英混合识别、英文,小语种以及中文方言可以到控制台-实时语音转写-方言/语种处添加试用或购买。

#支持的音频是什么格式?#

答:采样率为16K,采样深度为16bit的pcm_s16le音频

#实时语音转写支持的音频时长有什么限制?#

答:实时语音转写可以实时识别持续的音频流,结果是实时返回,音频流长度理论上不做限制,典型的应用场景是大会或者直播的实时字幕。

#实时语音转写的分片时长40ms是什么意思?#

答:可以理解为上传的间隔为40ms,建议音频流每40ms向服务器发送1280字节,发过快可能导致引擎出错,音频发送间隔超时时间为15s,超时服务端报错并主动断开连接。

#如何购买实时语音转写?#

答:登录讯飞开放平台,进入实时语音转写页面,点击“申请购买”按钮,在线购买时长即可。

#实时语音转写如何添加IP白名单?#

答:登录讯飞开放平台,点击右上角的“控制台”,点击“我的应用”,选择到所创建的实时语音转写Web api应用平台,点击IP白名单“管理”按钮,即可添加IP白名单。

#实时语音转写如何免费试用?#

答:可在实时语音转写服务的产品页面,直接领取免费使用权限;到期后可直接在控制台点击购买时长和授权(价格可见)

#实时语音转写和语音听写的区别有哪些?#

答:支持时长:在线语音听写单次会话支持60s以内的语音转文字;实时语音转写的音频流长度理论上不做限制
支持语种:在线语音听写除中文普通话和英文外,支持12个语种,25种方言;实时语音转写支持中文普通话、中英混合识别、英语、开通的小语种以及中文方言;
应用场景:在线语音听写主要用于短语音的识别,如聊天输入、语音搜索等;实时语音转写可以实时识别持续的音频流,典型的应用场景是大会或者直播的实时字幕

#实时语音转写接口返回10105,如何解决?#

答:未通过服务端校验,请检查appid,apiKey,ip白名单,checkSum等授权参数是否正确。

#调用实时语音转写接口报10110错误码,如何解决?#

答:没有授权许可或授权数已满,请至控制台查看时长和路数情况,并查看有效期;如果未领取免费包,请至产品页面领取。

#实时语音转写支不支持离线?#

答:不支持

#实时语音转写如果一次连接使用时长超出了剩余时长怎么办?#

答:首先为了使业务使用不受影响,如果在连接期间使用时长超出,转写功能并不会立刻停止。本次连接断开后时长可能会出现为负数的情况,请在使用过程中关注时长剩余情况并及时购买时长。

请求参数

Query 参数
{请求参数}
string 
可选
上一页
实时语音转写服务说明
下一页
Android SDK 文档
Built with