论文部分内容阅读
建立丰富的语音语料库是研究语音技术的基础,从工程方面看,语音语料库是更加完善语音技术的重要环节之一。针对现有的维吾尔语语音语料库的规模不大以及发音人员年龄和地区方面不平衡等问题,面对深入研究发展的需求,维吾尔语语料库急需扩大,尤其是对语音数据的多样化需要改进,使其更加实用化。因此,本文研究了维吾尔语语音语料库的建立方法及语料库在语音识别中的应用。主要研究内容如下:1)对传统的语音采集和语音语料的标注方法进行了改进。语音语料的采集需要大量的人力和时间。为了解决这一问题,配合维语语音数据采集工作,定制了维语录音工具,目的是简化录音流程,使其更加方便地进行远程数据采集与异地支持等工作。任何人都可以使用该平台进行语音采集数据。为了提高语音标注工作的效率,设计了相应的语音标注平台。这些新方法在实际应用中取得了很好的效果。2)根据维吾尔语的语言和语音特征,构建了多样化的大规模语音语料库。每一种方言中,根据地区的不同还包含了一些土语。有些同样的词在不同的方言中发音不一样。除此之外,不同年龄人的发音特征,韵律特征有一定的差异。因而,采集各地区的方言语音和各年龄段不同文化程度的自然人的语音数据,对语音识别中的特征参数提取和声学模型的优化有着一定的研究意义。目前影响提高识别率的关键因素就是语音的多变性问题。建立包含尽可能多语言现象的语料对语音的分析和识别工作至关重要。而提高语音语料库质量的另一个关键是选取覆盖尽可能多语言现象的文本。本文我们用常用词包含程度和三音子包含程度两种方法进行语料的筛选工作并与传统的随机筛选方法做了对比实验,其中本文提出的三音子筛选方法的覆盖率达到了91%。3)最后,利用语音识别技术中广泛应用的HMM和DNN两种方法对采集的语音语料的一部分进行声学特征提取和声学模型建模并进行了连续语音识别实验。实验中,在语言模型方面,采用了N-gram语言模型,在Linux环境下借助kaldi语音识别工具箱进行了对比识别实验。实验结果表明针对大规模的语音数据来说,DNN声学模型的语音识别结果更好。本文中基于DNN模型的识别率达到了84.49%。相比传统的模型,系统的识别率提高了1.77%。