语音识别API接口时间戳、字幕、说话人

📅 2026/7/6 6:22:34

语音识别API接口支持时间戳、字幕、说话人一、产品简介本接口提供高精度的语音转文本STT服务支持长音频、多语种识别及说话人分离可快速将音频/视频文件转化为结构化文本数据。适用于视频字幕生成、会议纪要整理、媒体内容分析等场景集成字粒度时间戳与SRT字幕导出功能助力开发者高效构建语音交互应用。二、核心功能多格式兼容支持mp3、wav、aac、m4a、flac等主流音频格式及mp4、mov、mkv等视频格式最大支持2GB文件或12小时时长。智能识别自动语言检测默认支持中、英、日、粤、韩、德、法、俄等多语种。说话人分离Speaker Diarization标记不同说话人身份。字粒度时间戳精准定位语音片段。字幕生成直接输出SRT格式字幕文本可保存为.srt文件导入视频编辑软件。实时反馈异步任务模式支持查询任务状态PENDING/RUNNING/SUCCEEDED/FAILED。三、计费与配额免费额度新用户享10分钟免费转写。按量计费0.008元/分钟不足1分钟按1分钟计。请求限制无每日调用次数限制。四、请求参数说明参数名必填类型示例值说明key 是 string 35kj5jnlj53453kl5j43nj5 接口密钥控制台获取url 是 string https://#/audio.mp3 音视频文件公网可访问URLtaskId 是 string 640c4f3f-... 唯一任务ID建议使用UUIDlanguage 否 string zh 语种代码留空为自动识别五、返回参数说明参数名类型说明code int 状态码200成功403密钥错误等msg string 状态描述信息data object 结果数据集taskId string 任务IDtext string 全量识别文本subtitle string SRT格式字幕内容sentences array 包含说话人、句级/词级时间戳的详细片段六、调用示例请求示例POST https://#/api/stt/speechrecognitionContent-Type: application/x-www-form-urlencoded;charsetutf-8成功返回示例{code: 200,msg: success,data: {taskId: 640c4f3f-6545-4102-88f6-703a826bdd14,url: https://#/audio.mp3,format: mp3,seconds: 61.07,sampling_rate: 44100,submission_time: 2026-07-03 18:54:42.330,completion_time: 2026-07-03 18:54:42.330,text: 我是一个草根。,subtitle: 1n00:00:01,000 -- 00:00:03,000n我是一个草根。n,sentences: [{speaker: SPEAKER_00,text: 我是一个草根。,start: 1000,end: 3000,words: [{word: 我,start: 1000,end: 1200}]}]},exec_time: 0.346334,ip: 220.172.49.45}七、错误码说明错误码说明403 请求密钥KEY不正确400 参数缺失或格式错误500 服务器内部错误504 音视频文件下载超时八、使用建议文件准备确保音频采样率≥16kHz人声清晰无严重背景噪音。任务查询对于长音频5分钟建议通过taskId轮询结果。字幕优化利用sentences中的词级时间戳可实现逐字高亮字幕效果。九、技术支持API文档点击查看完整文档调试工具控制台提供在线调试功能实名认证需完成实名认证后方可调用接口来源酷虎云api开放平台

新闻详情

相关阅读

3DS游戏文件格式转换：如何5分钟内完成CCI到CIA的完美转换？

BigQuery实战入门：从分区裁剪到物化视图的工程化指南

操作系统内存管理深度精讲，虚拟内存与物理内存、分页机制、页表映射、缺页中断、内存碎片、OOM溢出底层原理

CS2200-CP与STM32L476RG构建高精度计时系统

从加密囚笼到音乐自由：3步解锁网易云音乐NCM文件

精确计时系统设计与实现：CS2200-CP与MK20DN128VFM5应用

CS2200-CP与PIC18LF26K22高精度计时方案解析

M95M04 EEPROM与PIC18F55K42嵌入式存储方案详解

PIC18微控制器扩展EEPROM存储方案与I2C驱动实现

acme.sh私钥加密存储：基于OpenSSL的自动化证书安全管理方案

免费二维码修复工具终极指南：三步拯救损坏二维码

星露谷物语终极MOD指南：5个步骤打造智能自动化农场

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

从GitHub安全案例解析常见漏洞与防护实践

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！