论文部分内容阅读
说话人识别以其独特的方便性、经济性和准确性的特点,在生物特征识别领域具有广阔的应用前景。但由于现有的说话人识别算法面临训练量大、实时性差以及受信道干扰严重等问题,使得说话人识别技术在实际应用方面受到了限制。在统计学习理论基础上发展起来的支持向量机,因其优良的泛化性能得以在说话人识别领域受到广泛的关注。但由于支持向量机尚处于发展阶段,很多方面尚不完善,因此研究并完善说话人识别技术的理论和实现算法具有重要意义。本文围绕着如何提高说话人辨认系统的识别率和鲁棒性的问题进行了研究,重点在基于超向量的核函数的生成方法上进行了探索,主要做了以下的工作:(1)对特征参数提取的改进。首先,将高斯混合模型-通用背景模型(GMM-UBM)引入到说话人辨认中来,利用说话人无关的特征分布来近似说话人训练语音未覆盖到的发音情况,弥补了说话人训练语音不足的缺点;然后,采用MAP自适应算法对特征参数均值进行自适应后排列生成超向量。(2)采用新的核函数(KL散度核函数、L~2内积核函数和基于NAP映射的核函数)应用于说话人辨认。这三种核函数都是以超向量为特征参数得到的,超向量的特性使得支持向量机可以在整体语音序列上进行分类,而传统的支持向量机是基于帧一级的处理,是将不等长的语音段切割为彼此独立的的帧来处理的,通过平均各个帧上的决策值来判定语音对应的话者身份。由于不需要在分帧时加入冗余信息,并且降低了运算复杂度,因而提高了支持向量机的分类能力。同时,为了减小交叉信道干扰和噪声等因素对系统识别率的影响,采用基于NAP映射的核函数,将说话人超向量中与说话人特征向量无关的信道子空间的冗余信息去除掉,提高了系统的鲁棒特性。(3)在自建语音库的基础上,用MATLAB进行仿真实验。首先将本文改进后的特征提取方法与改进前的方法进行了比较。随后,将本文采用的三种新型核函数应用于支持向量机。实验结果显示,本文采用的改进的核函数与传统的RBF核函数和多项式核函数相比较,它们的识别率都相对提高了12%以上。通过系统鲁棒性能实验可以看出,使用基于NAP映射的核函数的系统的鲁棒性得到了很大的提高。