【摘 要】
:
语音降噪旨在去除带噪语音中的噪声信号同时保留语音信号,从而提高语音质量和可懂度。在日常生活中语音降噪具有广泛的应用,例如手机通话,自动语音识别等。得益于深度神经网络强大的特征提取和建模能力,基于深度学习的语音降噪方法相比传统方法取得了更好的降噪效果,成为了目前主流的研究方向。尽管如此,基于深度学习的语音降噪方法也仍存在诸如噪声残留、模型训练损失函数与语音听感质量失配等问题。本文在总结前人工作的基础
论文部分内容阅读
语音降噪旨在去除带噪语音中的噪声信号同时保留语音信号,从而提高语音质量和可懂度。在日常生活中语音降噪具有广泛的应用,例如手机通话,自动语音识别等。得益于深度神经网络强大的特征提取和建模能力,基于深度学习的语音降噪方法相比传统方法取得了更好的降噪效果,成为了目前主流的研究方向。尽管如此,基于深度学习的语音降噪方法也仍存在诸如噪声残留、模型训练损失函数与语音听感质量失配等问题。本文在总结前人工作的基础上,针对上述两个问题开展研究并提出对应的解决方案。造成噪声残留问题的原因有很多,不合理的网络结构设计是其中之一。目前基于深度学习的语音降噪方法大都采用编码器-解码器(Encoder-Decoder,ED)的网络结构。由于编解码器中间缺乏合理的分离结构,用于解码的嵌入向量不可避免地包含噪声信息,从而影响解码器对语音的预测,加重噪声残留的问题。针对该问题,本文将子空间的思想与深度学习方法相结合,提出了基于子空间投影的时域语音降噪网络(Subspace Projection-based Time-domain Speech Noise Reduction Net,SPTSNRN)。SPTSNRN在编码器和解码器之间添加了基于自注意力的投影模块。该模块能够将嵌入向量分别投影到两个正交的子空间内,得到相互正交的语音向量和噪声向量,进而极大程度地将语音信息与噪声信息分离。相比已有的基于ED结构的基线模型,SPTSNRN取得了明显的降噪性能提升。在SPTSNRN的基础上本文进一步分析了利用预测的噪声信息辅助提升语音质量的可行性,并基于此设计了双阶段语音降噪网络。该网络由SPTSNRN和融合网络(Merge Network,MN)级联而成,其中MN能进一步利用SPTSNRN预测的噪声信息并将其与预测的语音相融合从而获得更好的降噪结果。实验结果表明该模型进一步提升了SPTSNRN的降噪性能,并超越了大多数已有的语音降噪模型。此外,用于训练的损失函数也会影响语音降噪模型最终的降噪性能。目前常用的损失只是简单计算了增强语音和真实语音在时域或频域上的数值偏差,与语音听感质量存在明显的失配。这导致训练得到的模型并不一定拥有最优的语音降噪性能。针对该问题,本文在已有时频损失的基础上,根据人耳的听觉特性提出了感知高相关时频损失函数(Perception-High-Related Time-Frequency,PHRTF)。该损失函数能够自适应地对不同频率分量上的误差进行差异化掩蔽,使得与听感更相关的频率分量上的误差拥有更大的比重,从而让PHRTF损失函数与语音听感质量具有更高的相关度。实验结果表明,相比其它常用的损失函数,PHRTF损失函数与语音听感质量具有更高的相关度,同时用它监督语音降噪模型训练能使降噪语音的听感质量得到明显提升。
其他文献
水声探测和声场预报依赖海洋环境参数,海底地声参数则为海洋资源勘查提供支撑。直接测量海底地声参数比较困难,为此开展分布式传感网络进行地声参数反演研究,利用其空间分集提高反演性能,结合图信号处理进一步提高反演参数的准确性。基于声互易性原理,将移动声源与分布式固定节点等效为固定声源与合成水平阵接收实验结构。基于水平线阵匹配场处理进行地声参数反演,采用频率相干目标函数,避免分布式节点接收数据同步问题,同时
Stewart平台是一种六自由度并联机构,具有承载能力强、运动精度高等优点,在生产加工、运动模拟、设备稳定与跟踪等方面有广泛的应用。在基于Stewart平台的姿态稳定应用研究中,我们发现Stewart平台在运动范围上的局限性,且平台的工作性能受到支链运动误差的影响。为了改进上述不足,本文着眼于6-PUS并联机构,设计出具有更大运动范围和更高运动性能的并联平台,使其能适应车载、舰载等大幅度低频率的振
在全球气候变暖背景下,全球植物物候发生了显著变化。但植被生长显然不是对大陆平均温度的变化做出响应,而是对局部区域温度的空间异质性变化更为敏感。正是由于地表空间异质性的普遍存在,在不同空间分辨率遥感影像上反演植被物候必然存在空间尺度效应。当前,尺度问题已成为植被物候遥感反演研究中面临的一个突出问题。一方面,受云、雨和雪等天气影响及遥感传感器本身物理性能的限制,导致物候尺度效应研究所需要的高时空分辨率
深度学习在目标检测领域的应用日益广泛,大多数深度神经网络模型都是以监督学习的方式进行训练,而监督学习依赖于大量标注数据。当场景发生变化时,深度神经网络模型的泛化性能较差。为了避免花费大量代价重新标注数据、训练模型,基于深度学习的域适应弱监督目标检测算法很有研究意义。基于伪标签的自训练方法是域适应的主流算法。为了提高算法的性能,本文提出了一系列解决方案,并通过实验验证了其有效性,本文的主要工作与贡献
声波是水下信息感知、辨识和通信的主要手段,广泛用于海洋环境调查、资源勘查以及水下对抗等领域。激光致声信号作为新的声源,可以通过机载和星载用于深远海探测和环境感知,成为光学和声学交叉应用领域的研究热点。本文基于激光热膨胀致声机制,开展激光致声原理研究和声场特性分析研究,为激光致声低频探测和水声通信提供理论指导。本文首先对热光声场在液体介质中的激发理论展开研究,分别在约束边界和自由边界条件下,分析了在
卫星遥感图像舰船检测技术不论在军事领域还是民用领域都具有十分重要的战略价值,主要应用场景为卫星在轨场景及地面站场景。在轨场景常用于远洋海面的舰船实时监控,星上有限的计算资源以及遥感图像大幅宽、小目标的特性是算法设计的主要挑战。地面站场景计算资源充足,常用于港口等复杂环境的舰船检测。本文对在轨场景的可见光遥感图像舰船目标检测系统进行了研究,同时探索了地面站场景中复杂环境的舰船目标检测方法,为不同场景
随着信息时代的飞速发展,人们对基于位置信息的服务的要求日益增长,无线定位技术也成为学术界的研究热点。在第五代通信系统、物联网、空天一体化等方面无线定位技术都具有广阔的应用前景。无线定位技术的关键目标在于提高定位的可靠性。5G以及未来无线通信系统以极高的工作频率和大规模天线阵列,为实现超高精度定位提供了发展机遇。近年来,基于大规模天线阵列的定位技术也被认为是实现超高精度定位的前景技术。然而,复杂环境
随着信息技术的不断进步,现代战争开始向着网络化、体系化及信息化的方向发展,武器装备的生存愈发困难,保障任务更加严峻。装备保障资源的有限及贫乏,与保障任务需求的多样及复杂之间的矛盾,成为了制约战斗力发展的关键。因此,能否建成体系化的装备保障体系,从而保障各种武器装备发挥出战斗能效,是现代军事建设所面临的重要挑战。由于装备保障体系在战争环境中承担着重要的后勤保障作用,因此往往容易成为敌方的重点攻击对象
SM2椭圆曲线公钥密码算法是由中国国家密码管理局组织研制的椭圆曲线公钥密码算法,包括密钥对生成、数字签名、密钥交换和公钥加密4组协议。因其具有安全性高、密钥长度短等优点,广泛地应用于信息安全相关领域。在SM2密码算法中,椭圆曲线点乘运算具有最高的计算复杂度,占据了90%以上的算法执行时间,是提升SM2密码算法性能的关键。SM2密码算法的实现一般有软件、硬件及软硬件协同三种方式。其中,软件方法具有高
自由空间光通信拥有较高的数据速率和安全性、较低的使用成本和部署难度,是实现Gb/s级高速率、大容量通信的关键技术之一,具有研究与工程价值。然而目前激光通信系统的信息载体常选用高斯光束,在传输过程中会因衍射造成光束扩散,以致接收端光斑面积大、能量分散,若以可自聚焦的环形阵列艾里光束代替高斯光束,虽聚焦能量效果好、传能效率较高,但聚焦区域短、通信覆盖范围有限。为了兼顾激光通信系统的传能效率与通信覆盖范