语音识别API接口 时间戳、字幕、说话人

📅 2026/7/6 6:22:34
语音识别API接口 时间戳、字幕、说话人
语音识别API接口支持时间戳、字幕、说话人一、产品简介本接口提供高精度的语音转文本STT服务支持长音频、多语种识别及说话人分离可快速将音频/视频文件转化为结构化文本数据。适用于视频字幕生成、会议纪要整理、媒体内容分析等场景集成字粒度时间戳与SRT字幕导出功能助力开发者高效构建语音交互应用。二、核心功能多格式兼容支持mp3、wav、aac、m4a、flac等主流音频格式及mp4、mov、mkv等视频格式最大支持2GB文件或12小时时长。智能识别自动语言检测默认支持中、英、日、粤、韩、德、法、俄等多语种。说话人分离Speaker Diarization标记不同说话人身份。字粒度时间戳精准定位语音片段。字幕生成直接输出SRT格式字幕文本可保存为.srt文件导入视频编辑软件。实时反馈异步任务模式支持查询任务状态PENDING/RUNNING/SUCCEEDED/FAILED。三、计费与配额免费额度新用户享10分钟免费转写。按量计费0.008元/分钟不足1分钟按1分钟计。请求限制无每日调用次数限制。四、请求参数说明参数名 必填 类型 示例值 说明key 是 string 35kj5jnlj53453kl5j43nj5 接口密钥控制台获取url 是 string https://#/audio.mp3 音视频文件公网可访问URLtaskId 是 string 640c4f3f-... 唯一任务ID建议使用UUIDlanguage 否 string zh 语种代码留空为自动识别五、返回参数说明参数名 类型 说明code int 状态码200成功403密钥错误等msg string 状态描述信息data object 结果数据集taskId string 任务IDtext string 全量识别文本subtitle string SRT格式字幕内容sentences array 包含说话人、句级/词级时间戳的详细片段六、调用示例请求示例POST https://#/api/stt/speechrecognitionContent-Type: application/x-www-form-urlencoded;charsetutf-8成功返回示例{code: 200,msg: success,data: {taskId: 640c4f3f-6545-4102-88f6-703a826bdd14,url: https://#/audio.mp3,format: mp3,seconds: 61.07,sampling_rate: 44100,submission_time: 2026-07-03 18:54:42.330,completion_time: 2026-07-03 18:54:42.330,text: 我是一个草根。,subtitle: 1n00:00:01,000 -- 00:00:03,000n我是一个草根。n,sentences: [{speaker: SPEAKER_00,text: 我是一个草根。,start: 1000,end: 3000,words: [{word: 我,start: 1000,end: 1200}]}]},exec_time: 0.346334,ip: 220.172.49.45}七、错误码说明错误码 说明403 请求密钥KEY不正确400 参数缺失或格式错误500 服务器内部错误504 音视频文件下载超时八、使用建议文件准备确保音频采样率≥16kHz人声清晰无严重背景噪音。任务查询对于长音频5分钟建议通过taskId轮询结果。字幕优化利用sentences中的词级时间戳可实现逐字高亮字幕效果。九、技术支持API文档点击查看完整文档调试工具控制台提供在线调试功能实名认证需完成实名认证后方可调用接口来源酷虎云api开放平台