论文部分内容阅读
随着对语言信息处理研究工作的不断深入,藏文信息处理技术也从文字处理逐步转向语言信息处理。藏文自动分词和词性标注是进行藏语语义理解、藏文信息检索、藏语与其他语种之间的机器翻译等的首要问题。藏语是我国一支重要的少数民族语种,藏语语音识别技术的研究与发展不仅可以使得不同民族之间的语言进行无障碍的沟通交流,也可以促使藏区经济、文化、教育等各领域的发展。而目前藏语语音识别研究仍处于初期阶段。进入21世纪,深度学习逐渐成为语音特征提取的新的研究方向。深度学习采取多层非线性变换技术从原始数据中提取由低到高、由具体到抽象、由一般到特征语义的特征。本文将深度学习应用到藏语语音识别研究当中,首先介绍藏语语音识别的研究现状、语音识别的基本原理及其深度学习的相关理论,并着重阐述了深度特征提取模型在藏语语音识别的中的应用。1.基于深度学习的藏语语音特征提取研究深度学习能够克服人工设计特征会使原始语音数据特征丢失的缺点,学习出人工无法定义的特征。因此,基于大数据和深度学习来学习特征,更能反映数据的丰富内在特征信息。本文主要使用稀疏自动编码器和深度置信网两种模型来提取藏语语音特征。从模型原理展开,就藏语特征提取模型的无监督预训练和有监督的微调方法做了详细描述。2.基于深度特征的藏语语音识别声学模型研究基于深度学习提取的特征,使用GMM-HMM方法建立声学模型分别对音素和音节识别。实验证明,与MFCC特征相比,基于SA+MFCC特征的音素识别率最高为69.05%,提高10.22%,音节识别率为48.54%,提高了24.6个百分点;基于DBN+MFCC特征的音素识别率最高为69.46%,提高10.63%,音节识别率为49.04%,提高了25.1%,并且DBN模型使用更少的迭代次数,因此,DBN模型效率更高。在以后的藏语语音识别研究工作中,我们可以采用DBN模型进行藏语连续语音识别的深度特征提取。