论文部分内容阅读
说话人识别技术作为语音信号处理技术的一个重要组成部分,有着十分广阔的研究和应用前景。在说话人识别方面已经有了许多采用不同参数的识别方法,本文从基础出发,在学习语音识别技术的基本原理的前提下,将书本中的理论应用化,在基于特征参数的矢量量化的说话人识别上取得了不错的效果。本文首先阐明说话人识别原理,在进行初步实验的基础上,比较了不同的声学特征参数,最终采用了能够反映人对语音的感知特性的Mel倒谱系数(MFCC)作为进行矢量量化的特征参数。LBG算法具有理论上的严密性、应用上的简便性以及较好的设计效果,因此本文在矢量量化聚类时采用此算法。但传统的LBG算法在码本的生成上存在着码字均匀分裂问题,针对此问题本文提出了两种不同的解决方案:第一种方案采用变量作为码本生成的扰动量,即采用变步长分裂方法来提高码本的生成速度;第二种方案改变初始码本中码字的个数,使码本从开始便在畸变最大的方向进行分裂。在改进码本的生成方法的基础上,继续传统的LBG算法,这样既可以继承传统LBG算法的优点,又可以得到质量相对较高的码本。在最终的说话人识别上,采用了改进后的LBG算法,提高了说话人的识别率。论文的最后,在识别说话人的基础上,对语种识别做了初步的讨论,指出了下一步的工作方向。