论文部分内容阅读
目前,人工智能技术正在快速发展,越来越多的研究者将智能语音技术(语音识别、语音合成、对话、翻译等)应用于语种保护、语音交流以及语音搜索等领域,尤其是民族语言的保护。其中,语音识别技术是利用语言学、语音学、模式识别等学科将语音转换为文本的过程,是实现人机交互的关键技术之一。语音识别技术在飞跃进步,除普通话、英语等主流语言的语音识别的研究,方言和民族语言的语音识别也成为研究热点。东干语是中亚东干族所使用的语言,是汉语陕甘方言的特殊变体,有甘肃方言和陕西方言之分。本文研究了东干语陕西方言的语音识别方法,实现了基于传统HMM、深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、DNN混合语料以及端到端(End-to-End)方法的东干语语音识别。实验结果表明,在HMM、DNN、CNN以及混合语料DNN的对比实验中,混合汉语/东干语语料训练的DNN声学模型取得的词错率最低为14.59%,而在几组端到端实验中识别率最高的为混合CTC/Attention架构在CTC解码权重为0.2时取得最好的识别率为66.1%。本文主要工作和创新如下:1.建立了东干语语料库。通过研究东干语发音特点,设计了覆盖所有音节的4000句东干语文本语料,语音语料的录制是在校东干族留学生在专业录音棚中录制。同时根据东干语发音规则完成东干语的标注。2.实现了基于传统HMM和DNN、CNN东干语语音识别的对比实验。分别训练了东干语HMM、DNN、CNN声学模型,对东干语文本语料训练获得到3-gram语言模型,设计了东干语发音词典,实现了上述三种方法下的东干语语音识别。实验结果表明,在相同的环境下,DNN东干语语音识别相对于传统HMM识别率从84.41%提升到84.87%。同时,由于CNN强大的学习能力,词错率相对于DNN又下降了0.17%。3.实现了混合语料DNN声学模型东干语语音识别。考虑到低资源语料训练模型时会因为数据稀疏而出现训练的模型参数不精确,我们选择了汉语辅助建模训练。实验将30小时的汉语语料和4000句东干语语料混合训练了混合声学模型和语言模型。实验结果表明,通过其他语言辅助训练模型参数能有效提高目标语言的语音识别率。4.实现了End-to-End的东干语语音识别。本文训练了长短时记忆网络(Long Short-Term Memory,LSTM)和双向长短时记忆网络(Bidirectional Long-Short-TermMemory,BLSTM)两种编码网络,实现了基于链接时序分类(Connectionist Temporal Classification,CTC)、注意力(Attention)和混合CTC/Attention三种方法下的东干语语音识别,并对实验结果进行了对比分析。