论文部分内容阅读
语种识别是对非限定说话人所讲的语言种类进行识别。该技术是近年来语音识别领域的一个新的研究热点,可广泛应用于多语种信息服务和军事安全领域。目前大多数的语种识别系统都是基于连续语音识别的,以音素及音位配列信启、来对语言建模。此类方法因与说话内容相关的(与文本相关),因此需要专业的语高学知识和大量先验知识,而且系统扩展性差。本文主要研究与文本无关的、多语种的、电话语音的语种识别方法,包括高斯混合模型(GMM)和支持向量机(SVM)的语种建模方法,并深入研究了语种语音的声学特征参数、GMM/UBM模型的改进方法和基于核序列的SVM模型的改进方法:1.针对背景噪声干扰大等原因,建立基于GMM/UBM的语种识别系统。并提出了一种改进的GMM/UBM对数似然比计算方法,该方法可以消除打分过程中噪声带来的影响。利用对比试验证明:细化到帧、混合分量一级的对数似然比计算方式与传统计算GMM/UBM对数似然比的方法相比,一定程度上提升了语种识别系统的性能。2.将SVM直接应用于与文本无关的语种识别面临着大样本和背景语种选择等难题。本文提出了基于GMM-UBM的Louradour核序列变换方法,并通过实验证明GMM-UBM核序列与其他核序列的相比,性能有显著提高性。同时提出了利用基于Louradour核序列变换方法的长短时特征融合技术,将基于音节单元的长时特征与基于音节单元的核序列融合,用于SVM识别系统中,实验结果发现合理的特征组合方式,有助于系统性能的提升。3.此外,在以上两类模型基础上,研究了GMM/UBM系统识别率和混合分量数目的关系、研究了各类短时特征组合方式对GMM/UBM系统性能的影响。