基于生成对抗网络的单通道语音增强方法研究

来源 :兰州理工大学 | 被引量 : 2次 | 上传用户:xsybt007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展,人们对于通信系统和智能语音设备的要求也越来越高。语音增强作为一种可以提高语音听觉质量和可懂性的技术,对于推动通信技术和人工智能行业的发展有着重要意义。但是实际的声学场景下,存在大量的平稳噪声和非平稳噪声,并且纯净语音和噪声之间是典型的非线性关系。传统的无监督语音增强方法依赖信号的一阶统计特性,仅适用于符合高斯先验的平稳噪声环境。而大多数的有监督语音增强方法利用神经网络的非线性结构学习噪声语音和纯净语音之间的非线性关系,在噪声类型已知的情况下能够取得较好的结果,但是在未知的噪声环境下模型性能急剧下降,增强语音的质量和可懂性也较差。生成对抗网络(Generative Adversarial Network,GAN)是当前最新颖的一种基于深度学习的生成式模型,已经成功应用到语音增强领域。研究发现,基于GAN的语音增强在非平稳噪声和未知噪声环境下,可以更好提高语音的听觉质量和可懂性。该方法已经成为语音增强中最具潜力的研究方向。本文将主要研究基于GAN的语音增强方法,致力提高生成语音的质量和可懂性,主要工作如下:(1)提出基于混合惩罚项的相对平均生成对抗网络语音增强方法。标准语音增强生成对抗网络存在模型收敛缓慢、训练过程不稳定以及梯度消失等问题,导致生成语音的质量和可懂性较差。本文分析GAN的训练机制,并对生成语音和真实语音之间差异的度量问题展开研究,提出了基于混合惩罚项的相对平均生成对抗网络(Relativistic Average GAN,RaGAN)语音增强方法。RaGAN能够解决训练过程中真实数据得分不下降的问题,并优化模型对真假数据的评估机制,显著增强了模型训练的稳定性。混合惩罚项由1L正则化和均方误差组成,该项可以更准确地度量真实语音和生成语音在数据分布上的差异。通过最小化混合惩罚项的值可以使生成语音更接近真实语音,提高生成语音的质量和可懂性。在两个不同测试集上的实验结果表明,提出的方法与其它对比方法相比,在未知噪声环境下能够更好提高语音的质量和可懂性。(2)提出结合语音质量度量指标优化生成对抗网络的语音增强方法。目前基于GAN的语音增强方法大多是从网络结构优化的角度提出改进的,这类方法对于语音质量的提升作用有限。本文从语音质量度量的角度出发,提出尺度不变信号失真比(Scale Invariant Signal to Distortion Ratio,SI-SDR)优化的生成对抗网络语音增强方法,将提高语音质量作为模型优化的目标。SI-SDR优化的损失函数在GAN的训练过程中可以引导生成器自动生成质量得分更高的语音,从而直接提高生成语音的清晰度与可懂性。在三个不同测试集上的实验结果表明,所提方法在未知的噪声环境和低信噪比条件下均取得了更好的语音增强效果。
其他文献
大型回转类筒体在制造过程中,由于运输困难通常都将筒体分为各小段节制作,然后在使用现场将各段节组焊连接成大的筒体,而这样的工艺过程难以保证筒体整体的直线度,因此,需在
镍基高温合金GH4169在1000℃高温下仍维持优异的力学性能及良好的抗氧化性、抗腐蚀性,已成为军民用能源转换装置热端部件不可替代的关键材料。然而其切削加工性差一直制约着高性能零部件的高效生产,究其原因是刀具难以适应高速切削镍基高温合金过程中的强力-热-化学多场耦合环境,表现为加工效率低、刀具寿命短和加工质量差。因此,本文针对镍基高温合金GH4169的高速切削加工,从陶瓷刀具的高温力学行为出发,研
以穆利亚希矿样作为原料进行球磨和浸出试验。在试验中研究了磨矿浓度和时间对细度的影响,同时还研究了浸出温度、硫酸浓度和时间对浸出率的影响。发现穆利亚希矿在磨矿过程
中国经济从1978年改革开放以来飞速发展,但四十年后的今天遇到了一系列结构性问题,产能低下、创新不足成为制约中国企业引领世界发展的重要因素。中国经济的出路在改革,而改革的目标是找到一套适合中国经济转型与发展的特色社会主义市场经济体制。2013年“上海自由贸易区”的成立是一种全新的尝试,自贸区对标国际先进经贸体制的本质就是以开放倒逼改革,短短5年间,自贸区由上海拓展到“1+3+7+1”共计12个自贸