论文部分内容阅读
噪声的存在将导致语音处理系统的性能急剧下降,因此有必要研究语音增强方法以抑制噪声。传统的语音增强方法一般需要对噪声做出一定的条件假设,这使其实际应用受到限制。人类听觉系统对噪声有很强的抑制能力,语音感知分析对人类听觉系统如何辨识来自同一音源的语音信号做了系统的阐述。由语音感知分析理论可知,人耳将混合的声音信号分解成一系列子成分的组合,这些子成分具有独立的声学感知意义,听觉系统根据重组规则将那些可能来自同一音源的子成分进行重组。受语音感知分析理论启发,本文研究了基于Chirp模型的语音增强方法。
语音信号是非平稳的,Chirp原子是Gabor原子的扩展,其具有高时频聚集性,且具有刻画非平稳信号时频结构的能力,本文提出使用Chirp模型对语音信号建模,并介绍了如何使用匹配追逐算法提取Chirp模型的参数。为了克服传统的语谱图分析受测不准原理限制,本文使用Chirp原子的时频分布来对语音信号进行时频分析。该分布继承了魏格纳-维尔时频分布(WVD)高时频聚集性的优点,同时避免了WVD分布中存在交叉项的弱点。通过在时域和时频面上的分析,本文验证了使用Chirp模型对语音信号进行建模的可行性和有效性。
本文所研究的语音增强方法需要对语音信号的基本单元进行处理,为此本文研究了语音端点检测算法。基于跟踪谱包络动态特性的语音端点检测算法无需噪声的先验信息,对低信噪比的各种噪声环境下的语音都有比较好的检测性能。由于在汉语的过渡成分中谱包络会急剧下降,使得其对汉语的过渡成分进行检测时会出现误差,本文提出在谱包络边界的更新滤波器中加入补偿因子对谱包络的边界进行补偿,使得算法的检测准确率得到提高。
根据语音感知分析理论的成果,在用Chirp模型对含噪语音信号进行建模的基础上,本文根据语音和噪声的Chirp原子的参数之间的差异,提出了对模型中的原子进行重组的规则。通过对含噪语音的Chirp原子进行重组,噪声原子被去除,从而达到语音增强的目的。本文所研究的基于Chirp模型的语音增强方法无需知道噪声的先验信息,仿真结果显示其对低信噪比下的高斯白噪声和有色噪声环境下的语音皆有较好的增强效果。