论文部分内容阅读
                            
                            
                                随着全球化趋势的加剧,国际间交流越来越密切,各国家和地区的人们因为经济、政治、文化、旅游的需要而频繁往来,使得人们迫切地需要能够突破语言的限制,自由地进行交往。因此自动语种识别((Language Identification,LID)显得越来越重要。LID能自动地识别出一段语音所属的语言种类,这在语音识别、自动机器翻译、国防和日常生活中体现出较强的应用价值,逐渐引起了相关研究和应用领域的广泛关注。
    广义上说,自动语种识别可分成基于声学模型和基于音素搭配关系模型两类。另外,根据建模方法的不同,又可以分成产生性模型(Generative Model),如音素识别语言模型(PRLM)、高斯混合模型(GMM)和区分性模型(Discriminative Model)的方法,如支持向量机SVM。近年来将音素识别PR、GMM和SVM结合起来成为语种识别研究的一个主要方向。本文从声学空间的区分性建模方法出发,着重研究了基于支持向量机SVM的语种识别系统。首先介绍了其常用的声学特征及其鲁棒性方法,然后分析了不同核函数的构成,即广义线性区分性序列核GLDS和高斯混合模型超矢量核GSV,在此基础上提出了相应的改进,具体工作包括以下几个方面:
    第一:从原理上对比了LPCC和MFCC在语种识别中的优劣,由此启发,将它们融合起可以获得较好的效果。另外对各种基于特征域上的鲁棒性方法在语种识别上的应用进行试验,最终给出了一个合适的提高特征鲁棒性的策略。
    第二:针对原有的GLDS核函数存在训练、测试语句之间时长不匹配的问题,采取了层次化的结构,一方面将训练样本切分到和测试样本相近的长度,另一方面又通过样本选择,在控制样本数目的前提下保留了最具区分性的样本。这样在一定程度上减少了训练和测试之间的不匹配问题,又保留了其计算量小的优点。再结合多种特征之间的互补性,使系统性能提升30%。
    第三:在GSV系统中,通过结合扰动属性投影NAP、因子分析FA等去噪方法和VTLN等手段,识别性能得到很大提高。另外,针对GSV系统的特征维数随GMM高斯数呈倍数的增长,且各维间存在冗余的现象,本文采用核主成分分析KPCA和关键特征选择(Key Selection)的方法,既起到了降维的作用,又突出了剩余特征维数之间的区分性,减少了运算量,提升了系统性能。