论文部分内容阅读
根据对语音信号处理方式的不同,语音增强算法可以分为两类:基于模型的方法和非模型的方法。相对于基于模型的增强方法,非模型的方法在一些方面有不足之处。有些非模型的方法需要两个麦克风,分别做为噪声和语音的输入。但是通常这是很难实现的,特别是某些需要实时处理的应用,比如在助听器上的应用。非模型的方法的一个较大的缺点在于必须假定噪声是相对平稳的,当噪声变化过快时,其效果不能令人满意。而且有些非模型的方法还会引入音乐噪声,比如常用的谱减法。基于模型的方法利用语音信号在时域中的统计特性或短时相关特性等来研究具有针对性的噪声消除技术。基于模型的方法从其增强机理就避免了音乐噪声的产生,可以很好地处理非平稳噪声。本文以随机信号处理技术作为理论工具,采用动态模型对语音建模,研究了几种基于模型的语音增强方法,其目的是改进现有语音增强算法的性能。另一方面,本文还对语音质量的主观和客观评价方法进行了研究。全文的主要研究内容如下:1.在子带H∞滤波构架上,提出了一种结合人耳听觉掩蔽特性的单通道语音增强方法。该方法不用对激励噪声和附加噪声的统计特性做出假设。将语音信号分解为子带信号,采用迭代H∞滤波估计出子带信号的低阶AR参数。在对子带噪声进行估计时引入噪声掩蔽阈值,提高了H∞滤波的效果,减少了语音失真。仿真实验结果表明,该算法不仅降低了计算量,而且在主观和客观测试中都获得了更好的增强效果。2.由于发音的差异或发声方法的差别,不同说话人对同一音素发音时能级并不相同。HMM模型并不能明确地描述这种差异。在HMM模型的框架下,通过对语音增益的参数化和建模来解决上述问题。语音HMM模型和时不变的增益参数通过训练数据在离线时得到,而时变的参数通过观测到的带噪语音在线更新。通过并行的H∞滤波器对带噪语音进行处理,由滤波器输出的加权和计算出对干净语音的估计。引入IMM(交互式多模型)算法使并行的滤波器能有效地交互,在不显著增加计算复杂度的情况下改进增强性能。通过实验表明,文中提出的增强方法能有效地去除背景噪声,处理后的语音失真也比较小。3.针对含有色噪声的语音,提出了一种基于Unscented粒子滤波的单通道语音增强方法。采用时变AR模型对干净语音和噪声建模,通过Unscented粒子滤波器估计AR模型的参数并滤除有色噪声。与大多数常用的粒子滤波选择的建议分布不同,Unscented粒子滤波器采用Unscented卡尔曼滤波器生成粒子滤波的建议分布。由于在粒子的更新过程中考虑了最近的观测值,Unscented粒子滤波器能够在粒子数少于传统粒子滤波算法所需粒子数目的基础上改善估计的性能。仿真实验结果表明,在有色噪声背景下该算法具有良好的语音增强效果。4.为了预测经过增强算法处理后的语音质量,评估了几种客观测度的性能。在对干净语音混入三种噪声,分别对六类增强算法进行增强处理,并通过文中介绍的客观测度测试增强算法引入的失真。对增强后的语音质量进行主观测试时采用ITU-T P.835中提出的主观测试方法,从语音信号失真等级、背景噪声等级和语音整体质量三方面评估增强后的语音质量。最后,采用多元自适应回归分析技术得到与主观质量高度相关的一种新的组合客观测度。5.提出了一种新的基于GMM-HMM模型和非均匀线形预测倒谱系数的客观语音质量评估方法。提取干净语音的非均匀线形预测倒谱系数用来对GMM-HMM模型进行训练。通过训练给干净语音建立参考模型。由参考模型和失真语音的非均匀线形预测倒谱系数向量可以得到它们之间的一致性测度。最后,通过多元非线性回归模型建立主观MOS分和一致性测度之间的映射关系,可以得到对MOS分的客观预测模型。通过这一模型进行语音质量的客观评价,实验表明,文中所提出的基于输出的客观语音质量评估算法的性能要好于ITU-T P.563标准中提出的算法。