基于变分模态分解的语音增强算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:liyunlong1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的快速发展,像人机交互、语音识别等这些需要语音参与的场景都离不开语音增强这种前端技术的支持。除此之外,复杂噪声场景下的语音信号如何在有效去除噪声的前提下同时提高语音的质量,从而符合人耳的听觉特性,这正是语音增强所需要探讨的核心内容。现有的语音增强算法在弱背景噪声下能够取得较好的效果,但是随着噪声环境的改变,比如复杂场景的切换和输入信噪比的急剧下降,如何使得语音增强算法能够平衡去噪效果和语音质量是具有重大意义的。
  作为一种有效的时频分析方法,变分模态分解(Variational Mode Decomposition,VMD)算法是根据信号的自身特性进行分解的,从而在分解信号时具有自适应性。因此用VMD来处理非平稳、非线性信号具有很大的优势,而语音信号最具有代表性。本文以VMD算法为核心,在语音增强领域展开了深入的研究,并针对VMD算法存在的一些问题进行了改进,从而设计出了一种有效的语音增强方法,主要工作如下:
  1.采用多分辨率分析解决了VMD存在的模态数目模糊的问题。首先根据多分辨率分析符合人耳特性的特点,将语音信号进行多分辨分析并结合大量实验和分析得到了在利用小波对语音信号进行多分辨率分析时的最佳分解层数为6~7层;然后利用此结论对语音信号进行小波分解,再计算每个尺度下高、低频子信号之间的Spearman相关系数并以此作为确定语音信号中心频率个数的依据,从而解决了VMD存在的模态数目模糊的问题。
  2.将估计噪声与变分模态函数之间的互相关系数作为模态挑选的依据,从而实现了语音信号的精确去噪。为了得到估计噪声,将多分辨率分析结果中的前三个低频子信号进行重构。计算各变分模态函数与估计噪声之间的互相关系数,并通过自适应阈值的设定精确的挑选出了语音模态函数。通过对比mEMD-VMD算法增强后的语音信号明确的证明了,采用精确挑选模态函数的方法在最大程度上使得噪声被消除的同时语音信息得以保留。
  3.在剔除噪声的基础上保留了语音细节进一步提升了语音质量。为了保留语音细节,将VMD分解后存在幅度很小且变换缓慢的变分模态函数视为语音细节,作为语音重建的一部分,以此来达到提升语音质量的目的。实验结果表明,重建后的语音信号不仅在去噪效果上表现的出色而且语音质量得到了全面的提升。
其他文献
随着社会的发展和通信与信息处理技术的不断进步,生物识别技术与民众的信息安全联系越发紧密。声纹识别作为生物识别技术的一种,受到越来越多的关注,被广泛应用到手机支付、智能终端、医疗服务以及刑事侦查等领域。但是由于声纹识别的研究较短,所以仍然有很多问题尚未解决。在提取说话人的声纹特征时噪声会使说话人语音频谱发生畸变。传统自然语言处理模型由多个步骤组成,每个步骤是一个独立任务,其结果好坏会影响下一个步骤,
学位
随着软件的规模和复杂程度的不断增加,在软件开发过程中引入缺陷的可能性越来越大。而软件缺陷的存在可能会导致软件无法正常运行,甚至会危及人们的生命和财产。如果能够在软件发行之前发现缺陷,就可以合理有效地分配时间,降低成本和提高软件的质量。在实际的开发中,通常需要预测一个新的项目,或者项目所拥有的标签数据很少,在这种情况下,异构项目的软件缺陷预测应运而生。近年来,迁移学习方法的引入,解决了异构软件缺陷预
在图像处理领域,目标检测算法已经成为了人们的研究重点,并在人类生活中有着广泛的应用。但是现有的算法仍存在一些关键问题。一方面,卷积分类网络是目标检测算法提取图像特征的基础。在提取图像特征时,卷积分类网络自身参数规模大、模型计算复杂。另一方面,被检测的目标对象存在着尺度、大小的多样性,算法对于复杂场景的目标不能有效的识别。本文从理论与地基应用出发,针对存在的问题进行了深入研究,提出了有效的解决方法。
学位
在非协作条件下,通信信号的调制方式识别和参数估计是信号得以正确解调的前提。如今通信环境日渐复杂,信号的调制类型逐渐多样化,这会加大信号调制识别和参数估计的难度。随着计算机算力的提高,在人工智能领域中,深度学习算法渐渐崭露头角,开始在不同的领域得以应用。目前,将深度学习技术应用到调制识别领域已成为该领域的主流研究内容。因此,本文利用深度学习算法对数字信号调制方式的识别和参数估计进行了深入研究,主要研
近年来,卷积神经网络(CNN)在高光谱图像分类领域被广泛应用,其中3D-CNN可针对高光谱图像图谱合一的三维数据特点,同时提取高光谱图像的空谱联合特征,已被证明是一种有效的分类方法。但在运用3D-CNN进行高光谱图像分类时还存在以下问题:1.基于3D-CNN的分类方法需要一个大规模标注的数据集来训练网络,样本数量不足会导致网络产生过拟合现象,降低分类效果。2.光谱信息冗余、存在干扰像素,3D-CN
随着海洋领域的大力发展,声隐身性对于海上工作有着至关重要的作用。开展水下声源定位研究,确定水下声源所处空间的分布情况,研究不同类型声源对水下平台的影响,是进行减振降噪的一个重要过程。随着减振降噪技术的不断发展,水下平台自身辐射的噪声水平越来越低,若仍使用在远场条件下对水下声源的分析方法已经不能准确地获得声源位置信息。相较于窄带声源,宽带声源可以携带更多信息。因此,研究宽带声源的定位方法具有特别重要
学位
随着指纹识别技术在国内外快速发展并被各个领域所应用,人们对指纹识别系统性能的要求也愈来愈高。虽然指纹识别系统已相对成熟,但现有的提取指纹方向场的算法仍然存在问题,指纹图像在曲线角度特别陡的区域方向信息不连续以及没有办法进行准确平滑,在脊线中存在一些空洞或者在谷线上有不定数量的斑点情况下,对于离散类指纹图像无法起到很好的提取效果。本文为解决上述问题,提出一种改进的指纹方向场提取算法。本文根据干涉图样
学位
图像配准不仅是图像融合和三维重建中非常重要的中间步骤,同时也在遥感图像和医学影像领域中受到越来越多的关注。因此,对图像配准的方法进行研究具有重要的理论价值以及现实意义。在传统方法使用整幅图像进行配准时,引入无关区域的干扰,并且特征点匹配存在精度不足的现象,为此本文提出基于Faster RCNN的图像配准算法。本文通过改进的Faster RCNN神经网络对参考图像和浮动图像进行感兴趣区域提取,减少了
学位
森林火灾破坏性大,严重威胁森林的安全。传统的森林火灾检测方法主要是通过各种传感器对区域内温度、光谱、烟雾颗粒、可燃气体含量等指标进行检测,然而,这些感应设备存在信息量损失大、稳定性较差和实时信息无法存储等缺陷。而基于图像处理技术的森林火灾探测技术可以有效弥补传统探测方式的弊端,实现对森林火灾的实时监测。  本文针对森林火灾图像识别问题,在深入研究林火图像特点的基础上,采用脉冲耦合神经网络(PCNN
学位
野外火灾的发生,每年都会造成巨大的经济损失甚至危害人类的生命安全。由于野外森林面积大,环境干扰强,导致与传感器相关的火灾检测技术具有成本高、检测范围有限以及易老化等缺点,因此并不适用于野外火灾检测的场景。然而,随着视频监控技术的发展和相关技术的普及,针对野外火灾检测的研究逐渐开始向视频检测和识别的方向发展,这使得动态烟雾检测技术具有重要的研究意义。为了尽可能的扩大野外监控视角及范围,监控获取的须是