论文部分内容阅读
随着人工智能的快速发展,像人机交互、语音识别等这些需要语音参与的场景都离不开语音增强这种前端技术的支持。除此之外,复杂噪声场景下的语音信号如何在有效去除噪声的前提下同时提高语音的质量,从而符合人耳的听觉特性,这正是语音增强所需要探讨的核心内容。现有的语音增强算法在弱背景噪声下能够取得较好的效果,但是随着噪声环境的改变,比如复杂场景的切换和输入信噪比的急剧下降,如何使得语音增强算法能够平衡去噪效果和语音质量是具有重大意义的。
作为一种有效的时频分析方法,变分模态分解(Variational Mode Decomposition,VMD)算法是根据信号的自身特性进行分解的,从而在分解信号时具有自适应性。因此用VMD来处理非平稳、非线性信号具有很大的优势,而语音信号最具有代表性。本文以VMD算法为核心,在语音增强领域展开了深入的研究,并针对VMD算法存在的一些问题进行了改进,从而设计出了一种有效的语音增强方法,主要工作如下:
1.采用多分辨率分析解决了VMD存在的模态数目模糊的问题。首先根据多分辨率分析符合人耳特性的特点,将语音信号进行多分辨分析并结合大量实验和分析得到了在利用小波对语音信号进行多分辨率分析时的最佳分解层数为6~7层;然后利用此结论对语音信号进行小波分解,再计算每个尺度下高、低频子信号之间的Spearman相关系数并以此作为确定语音信号中心频率个数的依据,从而解决了VMD存在的模态数目模糊的问题。
2.将估计噪声与变分模态函数之间的互相关系数作为模态挑选的依据,从而实现了语音信号的精确去噪。为了得到估计噪声,将多分辨率分析结果中的前三个低频子信号进行重构。计算各变分模态函数与估计噪声之间的互相关系数,并通过自适应阈值的设定精确的挑选出了语音模态函数。通过对比mEMD-VMD算法增强后的语音信号明确的证明了,采用精确挑选模态函数的方法在最大程度上使得噪声被消除的同时语音信息得以保留。
3.在剔除噪声的基础上保留了语音细节进一步提升了语音质量。为了保留语音细节,将VMD分解后存在幅度很小且变换缓慢的变分模态函数视为语音细节,作为语音重建的一部分,以此来达到提升语音质量的目的。实验结果表明,重建后的语音信号不仅在去噪效果上表现的出色而且语音质量得到了全面的提升。
作为一种有效的时频分析方法,变分模态分解(Variational Mode Decomposition,VMD)算法是根据信号的自身特性进行分解的,从而在分解信号时具有自适应性。因此用VMD来处理非平稳、非线性信号具有很大的优势,而语音信号最具有代表性。本文以VMD算法为核心,在语音增强领域展开了深入的研究,并针对VMD算法存在的一些问题进行了改进,从而设计出了一种有效的语音增强方法,主要工作如下:
1.采用多分辨率分析解决了VMD存在的模态数目模糊的问题。首先根据多分辨率分析符合人耳特性的特点,将语音信号进行多分辨分析并结合大量实验和分析得到了在利用小波对语音信号进行多分辨率分析时的最佳分解层数为6~7层;然后利用此结论对语音信号进行小波分解,再计算每个尺度下高、低频子信号之间的Spearman相关系数并以此作为确定语音信号中心频率个数的依据,从而解决了VMD存在的模态数目模糊的问题。
2.将估计噪声与变分模态函数之间的互相关系数作为模态挑选的依据,从而实现了语音信号的精确去噪。为了得到估计噪声,将多分辨率分析结果中的前三个低频子信号进行重构。计算各变分模态函数与估计噪声之间的互相关系数,并通过自适应阈值的设定精确的挑选出了语音模态函数。通过对比mEMD-VMD算法增强后的语音信号明确的证明了,采用精确挑选模态函数的方法在最大程度上使得噪声被消除的同时语音信息得以保留。
3.在剔除噪声的基础上保留了语音细节进一步提升了语音质量。为了保留语音细节,将VMD分解后存在幅度很小且变换缓慢的变分模态函数视为语音细节,作为语音重建的一部分,以此来达到提升语音质量的目的。实验结果表明,重建后的语音信号不仅在去噪效果上表现的出色而且语音质量得到了全面的提升。