论文部分内容阅读
随着社会的快速发展,人们对于通信系统和智能语音设备的要求也越来越高。语音增强作为一种可以提高语音听觉质量和可懂性的技术,对于推动通信技术和人工智能行业的发展有着重要意义。但是实际的声学场景下,存在大量的平稳噪声和非平稳噪声,并且纯净语音和噪声之间是典型的非线性关系。传统的无监督语音增强方法依赖信号的一阶统计特性,仅适用于符合高斯先验的平稳噪声环境。而大多数的有监督语音增强方法利用神经网络的非线性结构学习噪声语音和纯净语音之间的非线性关系,在噪声类型已知的情况下能够取得较好的结果,但是在未知的噪声环境下模型性能急剧下降,增强语音的质量和可懂性也较差。生成对抗网络(Generative Adversarial Network,GAN)是当前最新颖的一种基于深度学习的生成式模型,已经成功应用到语音增强领域。研究发现,基于GAN的语音增强在非平稳噪声和未知噪声环境下,可以更好提高语音的听觉质量和可懂性。该方法已经成为语音增强中最具潜力的研究方向。本文将主要研究基于GAN的语音增强方法,致力提高生成语音的质量和可懂性,主要工作如下:(1)提出基于混合惩罚项的相对平均生成对抗网络语音增强方法。标准语音增强生成对抗网络存在模型收敛缓慢、训练过程不稳定以及梯度消失等问题,导致生成语音的质量和可懂性较差。本文分析GAN的训练机制,并对生成语音和真实语音之间差异的度量问题展开研究,提出了基于混合惩罚项的相对平均生成对抗网络(Relativistic Average GAN,RaGAN)语音增强方法。RaGAN能够解决训练过程中真实数据得分不下降的问题,并优化模型对真假数据的评估机制,显著增强了模型训练的稳定性。混合惩罚项由1L正则化和均方误差组成,该项可以更准确地度量真实语音和生成语音在数据分布上的差异。通过最小化混合惩罚项的值可以使生成语音更接近真实语音,提高生成语音的质量和可懂性。在两个不同测试集上的实验结果表明,提出的方法与其它对比方法相比,在未知噪声环境下能够更好提高语音的质量和可懂性。(2)提出结合语音质量度量指标优化生成对抗网络的语音增强方法。目前基于GAN的语音增强方法大多是从网络结构优化的角度提出改进的,这类方法对于语音质量的提升作用有限。本文从语音质量度量的角度出发,提出尺度不变信号失真比(Scale Invariant Signal to Distortion Ratio,SI-SDR)优化的生成对抗网络语音增强方法,将提高语音质量作为模型优化的目标。SI-SDR优化的损失函数在GAN的训练过程中可以引导生成器自动生成质量得分更高的语音,从而直接提高生成语音的清晰度与可懂性。在三个不同测试集上的实验结果表明,所提方法在未知的噪声环境和低信噪比条件下均取得了更好的语音增强效果。