使用Quartznet和Pytorch实现语音文字转换（speech-to-text）

时间:2025/7/10 13:14:32来源：https://blog.csdn.net/weixin_44278403/article/details/139319020 浏览次数: 0次

使用QuartzNet和Pytorch实现语音文字转换（speech-to-text）

QuartzNet介绍

QuartzNet是Nvidia推出的一个轻量级的端到端语音识别模型，即使在5x15版本上仅包含18.9M个参数，在LibriSpeech-dev其他数据集上也能有超过95%的准确率。因此，凭借高吞吐量和高精度，QuartzNet可以提供帧级语音到文本推理，相比于大多数GB级别的ASR模型，QuartzNet适用于存储和计算能力有限的边缘设备上使用。
QuartzNet模型Encoder-Decoder结构，以音频的MFCC特征作为输入

QuratzNet预训练模型

Nvidia提供了QuartzNet15x5的预训练NeMo模型，在 8xV100 GPU上以Apex/Amp O1优化级别进行训练。训练使用了LibriSpeech和Mozilla的EN Common Voice进行训练。在不使用其它语言模型的情况下，仅使用贪婪解码器，该模型在LibriSpeech 测试的WER（word error rate）为4.19%，在其他测试中的WER为 10.98%。

预训练模型使用

为了更好的将QuartzNet15x5模型应用在多种类、跨平台的应用上，我们将模型迁移到了Pytorch上，并将原来的代码尽可能解耦，以方便不同领域简单能够复用。以下为Demo的使用教程：

将代码克隆至本地:

git clone https://github.com/youjunl/Quartznet-pytorch.git
进入到代码文件夹:

cd Quartznet-pytorch
安装Python依赖：

pip install -r requirements.txt
运行Demo，这里我们将audio文件夹下的一段demo音频转化为文本：
python try_model.py
输出结果:
as i approached the city i heard bells ringing and a little later i found the street a stir with throngs of well dressed people in family groups winding their way thither and thither

关键字：使用Quartznet和Pytorch实现语音文字转换（speech-to-text）

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：