论文部分内容阅读
语言是人类生活与交流最重要的桥梁,语音是传递信息最重要的方式,因此,语音识别在人类社会显得尤为重要。目前主流语言的语音识别已经取得了较为理想的效果,语音识别成果随着物联网与智能家居系统逐步走进人们的生活。然而对于一些小片区的方言以及少数民族语言(藏语),不仅语音语料数据资源匮乏,而且获取可以进行实验的数据非常困难。针对数据匮乏而导致藏语语音识别系统性能不甚理想的问题,提出了低资源条件下基于TANDEM特征的藏语语音识别方法。为了提高藏语语音的识别效果,本文将长短时记忆网络模型生成的TANDEM特征引入到藏语拉萨方言的语音识别中。论文主要工作与创新如下:1、在声学模型层面,构建一个长短时记忆网络(Long Short Term Memory,LSTM)模型作为藏语声学特征提取器。网络包含一个输入层,一个输出层,网络的最后一层是一个后输出层,它不仅能在前向传播时评估目标函数,并且能将误差反向传递到输出层。为了使网络能够对长时序列建模并且能够充分挖掘上下文相关信息,隐含层设置三层的BLSTM。训练时引入线性投影层减少模型参数,提高实验训练速度。2、在声学特征层面,利用LSTM构建的声学特征提取器获得更加具有区分性的TANDEM声学特征。TANDEM特征是用LSTM对训练语料的帧进行分类,先使用BP(Back Propagation)算法和最小交叉熵准则训练网络的权重,获得音素级后验概率。实验中不直接使用LSTM的输出,而是利用LSTM比较窄的一层的值作为声学特征,再使用传统的GMM-HMM训练和解码。3、实现了基于TANDEM声学特征的LSTM-HMM藏语语音识别。以长短时记忆网络作为藏语声学特征提取器获得TANDEM声学特征,然后应用隐马尔可夫模型(Hidden Markov Model,HMM)进行藏语识别。实验结果表明,在本文建立的语料库测试集中,本文的方法能够有效改善低资源条件下的系统识别性能,相比GMM-HMM基线系统有15%左右的词错误率的降低。