论文部分内容阅读
自动语种识别,作为智能语音处理的一个重要方向,是指利用计算机自动地识别一段语音所属语言种类的过程。随着全球化进程的加速,全球各个国家和地区人们之间的交往变得越来越频繁,突破语言障碍变得极为迫切;因此,语种识别在多语种语音识别前端、信息检索、军事情报收集、公共安全等领域的应用价值逐渐体现,受到了相关应用领域的广泛关注。根据使用的特征不同,可以将主流的语种识别方法分为两大类:基于声学特征信息的语种识别方法和基于音素层信息的语种识别方法。其中,基于音素层信息的语种识别方法首先利用音素识别器将一段语音识别为一段音素序列,然后利用不同语种间的音素搭配存在差异这一特点进行语种识别。基于音素层信息的语种识别方法以其性能优异稳定、推广性好等优点受到越来越多研究人员的重视。本文对基于音素层信息的语种识别方法进行了较为系统的研究,搭建了从音素识别器到语种分类模型的语种识别系统,并在提高语种识别系统性能、降低算法复杂度等方面取得了一定的进展。具体的研究工作包括以下几个方面:第一,针对音素识别器的训练语料挑选问题,提出了基于音素平衡准则的数据选择方法,从大量语音数据中挑选出适量数据,提高了语种识别性能。第二,对一段特定语音,音素识别的结果及其搭配关系会受到说话人、信道等因素干扰而引入不必要的噪声。针对于此,提出采用因子分析方法去除噪声:首先在词图输出的序列基础上建立基于bagofN‐Grams的向量表示形式,然后在此向量空间中,采用因子分析方法估计说话人、信道等非语种因素差异所产生的噪声子空间并加以消除,显著提高了语种识别性能。第三,在PR‐SVM系统中,针对特征矢量高维、稀疏带来的计算和存储问题,提出了一种特征选择方法,通过对表征语音段的低阶特征矢量进行区分性选择,将具有较高区分度的低阶特征上升到高阶特征,将特征维数控制在可接受的范围内,提高了特征的区分性,进一步改善了语种识别系统的性能。