论文部分内容阅读
一直以来,语音就是人与人之间日常交流的主要载体。随着现代计算机技术和人工智能技术的快速发展,语音逐渐成为人机交互的重要形式。但是周围环境的噪声一直干扰语音信号,语音的质量和可懂度大大降低,严重影响人们的生活质量和人机交互质量。语音增强技术的本质就是采取某种算法尽可能地消除语音中的噪声,提高语音的清晰度和可懂度。传统的语音增强算法在平稳噪声环境中具有良好的去噪效果,但是在非平稳噪声环境中,这些传统方法的去噪效果并不明显,甚至在去除噪声的同时削弱语音的质量,使得语音严重失真。本文分析了传统变换域语音增强算法,发现在非平稳噪声环境下,传统变换域中重叠的语音信号和噪声无法完全分离的问题,基于此本文提出了基于稀疏度的多级分数阶傅里叶变换(Fractional Fourier Transform,FrFT)语音增强算法,主要研究内容和创新点有:(1)分数阶变换域稀疏度量研究。研究了语音信号和噪声在分数阶傅里叶变换域的能量分布,发现语音信号在分数阶域具有较强的能量聚集性。充分研究传统的变换阶数确定方法,即最小均方误差法和最大信噪比法,这些方法计算量较大,不适于实际应用。基于语音信号在分数阶域的稀疏特性,提出了根据稀疏度确定最优变换阶数的新方法,并将稀疏度法与加权方差法作比较,结果表明本文的稀疏度确定最优阶数的方法运算速度更快,计算结果更准确有效。(2)多级FrFT语音增强算法研究。研究了非平稳环境下,传统变换域方法无法将语音和噪声完全分离的问题后,本文提出了基于稀疏度量的多级FrFT语音增强算法。首先采用稀疏度量方法计算各级最优变换阶数,对含噪语音信号作多级分数阶傅里叶变换。然后采用最小均方误差法计算每个分数阶域的滤波器频率响应,并给定一个阈值,不断迭代优化确定最优的分数阶域滤波器频率响应。最后根据确定的最优分数阶域滤波器频率响应在不同的分数阶域对含噪语音信号进行去噪处理得到增强语音信号。通过实验验证,本文算法可有效地去除噪声,减少失真,信噪比也有较大的提升。(3)本文采用客观评价方法中的信噪比,对数谱失真测度和语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)评价语音增强质量,并将本文算法与几种传统算法进行对比。实验结果表明,本文基于稀疏度的多级FrFT语音增强算法具有良好的去噪效果,可较大幅度的提高信噪比,且优于其他几种算法。