论文部分内容阅读
在传统的基于听觉模型的语音质量客观评价方法中,通常需要引进过于复杂的符合人耳特性的数学模型,用来描述听觉系统的感知行为,给实际使用带来了很大的不便。 本文将从谱失真测度本身出发来解决这一问题,即用较简单的特征参数描述语音信号的谱特征,如Mel频率倒谱系数(MFCC)和Bark谱距离(BSD)测度,来代替复杂的数学模型逼近,而把那些反映听觉特性复杂的处理功能放在矢量测度中来定义和计算。并且,对于高度非线性的听觉系统,采用从有限的实际样本中“自学习”到具有输入输出关系能力的人工神经网络模型来实现。在这有限的样本有足够的代表性的条件下,可以较好地逼近真实的听觉特性。基于这一思路,本文针对语音质量客观评价的应用,以多层感知器和径向基函数网络模型替代MFCC、BSD参数对应的欧氏距离,并以主观评价结果作为期望值对网络进行训练,得到了既真实充分地反映了人耳听觉特性,又计算简便的谱失真测度。 径向基函数神经网络由于基函数具有快速学习能力的特性,并且所需逼近的非线性函数的形式对网络性能的影响并不是至关重要的,所以成功应用网络的关键因素是基函数中心的选取,中心选取不当构造出来的网络性能一般不能令人满意,故本文用了大量的篇幅讨论了高斯函数中心的选取算法,以便有助于网络能够成功地用于实际。 网络所需要的训练样本数据应该是典型的、均匀分布的,整个数据集能够代表所有数据特征的,但稍微有些冗余数据也是允许的。由于输入网络训练的语音谱失真测度数据是高维的,充斥着冗余数据和垃圾数据,所以对数据的预处理要求很高,本文也给出了数据预处理的方法。 最后,结合本文所得结果和其他文献得出的结果进行了比较和分析,并指出了今后的研究工作重点。