当前位置: 首页> 房产> 家装 > 外贸soho东莞建站_html菜鸟入门_贴吧推广_如何做好网络营销推广

外贸soho东莞建站_html菜鸟入门_贴吧推广_如何做好网络营销推广

时间:2025/7/14 17:34:58来源:https://blog.csdn.net/weixin_52582710/article/details/147320933 浏览次数:0次
外贸soho东莞建站_html菜鸟入门_贴吧推广_如何做好网络营销推广

一、研究背景与动机

本文提出了iSTFTNet,一种快速轻量级的mel频谱图声码器,旨在解决传统卷积mel频谱图声码器在波形合成中的高计算成本和冗余估计问题。在语音合成和语音转换系统中,mel频谱图被广泛用作中间表示,因此对mel频谱图声码器的需求日益增加。传统的卷积mel频谱图声码器通过卷积神经网络(CNN)隐式地联合解决三个逆问题:恢复原始尺度的幅度频谱图、相位重建和频域到时域的转换。然而,这种方法将所有问题置于黑盒模型中,无法有效利用mel频谱图中存在的时频结构。

iSTFTNet通过在输出侧替换部分层为逆短时傅里叶变换(iSTFT),在充分降低频域维度后,减少了黑盒建模的计算成本,并避免了对高维原始尺度频谱图的冗余估计。实验表明,将这一思路应用于三种HiFi-GAN变体后,模型在保持合理语音质量的同时变得更快速、更轻量级。

二、研究方法

(一)卷积mel频谱图声码器

卷积mel频谱图声码器通过CNN和时间上采样层,直接从mel频谱图计算原始波形,隐式地联合解决恢复原始尺度幅度频谱图、相位重建和频域到时域转换这三个逆问题。例如,HiFi-GAN V2仅使用通道数小于128的1D卷积,尽管其尺寸小于原始尺度频谱图维度(513),但依然表现良好。

(二)iSTFTNet:快速轻量级声码器

iSTFTNet在使用一些上采样层充分降低频域维度后,显式地利用时频结构,应用iSTFT。具体来说,iSTFTNet利用STFT的时频分辨率权衡特性,通过增加上采样倍数s来降低频域维度。例如,当需要在s×上采样后进行iSTFT时,可以利用原始尺度频谱图所需的iSTFT参数来计算新的iSTFT参数。

iSTFTNet的网络架构与基线模型大致相同,但需要三个关键修改:

  1. 最终卷积层的输出通道应从1更改为(fs/2 + 1) × 2,以生成幅度和相位频谱图而非原始波形。

  2. 在计算幅度和相位频谱图时,分别对输出应用指数激活函数和正弦激活函数。

  3. 使用iSTFT从幅度和相位频谱图生成原始波形。

(三)实现细节

iSTFTNet的实现基于HiFi-GAN的开源代码。除了上述三个修改外,其余架构与基线模型相同。训练设置采用HiFi-GAN配置,使用Adam优化器,初始学习率为0.0002,动量项β1和β2分别为0.5和0.9。损失函数结合了最小二乘GAN、mel频谱图和特征匹配损失。

三、实验

(一)实验设置

实验使用LJSpeech数据集,包含13,100个音频剪辑(24小时),采样率为22.05 kHz。将数据集分为训练集(12,600个)、验证集(250个)和评估集(250个)。提取80维对数mel频谱图,FFT大小为1024,步长为256,窗口长度为1024。将iSTFTNet应用于三种HiFi-GAN变体(高质量V1、轻量级V2和精心调优的V3)。

(二)评估

通过平均意见得分(MOS)测试评估感知质量,随机选择评估集中的20个语句,并使用其真实mel频谱图作为声码器输入。同时使用条件Fréchet wav2vec距离(cFW2VD)作为客观指标,测量真实和生成分布在wav2vec 2.0特征空间中的距离。实验结果表明,随着替换为iSTFT的层数增加,推理速度加快,模型尺寸减小。在MOS方面,C8C8I和C8C8C2I在V1和V2上与原始模型相当,但在V3上性能下降。这表明尽管性能下降,V3-C8C8I仍与Parallel WaveGAN相当,同时提高了推理速度。

(三)与最快基线的比较

将iSTFTNet与多频带(MB)MelGAN进行比较,发现V2-C8C8I在MOS上优于MB-MelGAN,同时减少了模型尺寸并实现了相当的速度。iSTFTNet与MB-MelGAN的多频带公式是正交且兼容的,未来研究可将iSTFT应用于MB-MelGAN。

(四)在文本到语音合成中的应用

将iSTFTNet应用于文本到语音合成,比较V1和V1-C8C8I与Conformer-FS2结合后的性能。经过300k次迭代的端到端微调后,通过MOS测试评估感知质量。结果表明,V1-C8C8I不仅在性能上与V1和Conformer-FS2相当或更好,还与真实语音相当,表明iSTFTNet在文本到语音合成中也不会降低语音质量。

四、结论

iSTFTNet通过在卷积mel频谱图声码器的输出侧替换部分层为iSTFT,在降低频域维度后显式利用时频结构,避免了对高维原始尺度频谱图的冗余估计。实验结果表明,iSTFTNet可以使模型更快、更轻量级,同时保持合理的语音质量。未来研究将探索将iSTFTNet应用于其他声码器,并进一步验证逆傅里叶变换的效用。

五、核心技术总结

在这里插入图片描述

关键字:外贸soho东莞建站_html菜鸟入门_贴吧推广_如何做好网络营销推广

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: