基于TANDEM特征的藏语拉萨方言语音识别的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:zhaojunchao2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类生活与交流最重要的桥梁,语音是传递信息最重要的方式,因此,语音识别在人类社会显得尤为重要。目前主流语言的语音识别已经取得了较为理想的效果,语音识别成果随着物联网与智能家居系统逐步走进人们的生活。然而对于一些小片区的方言以及少数民族语言(藏语),不仅语音语料数据资源匮乏,而且获取可以进行实验的数据非常困难。针对数据匮乏而导致藏语语音识别系统性能不甚理想的问题,提出了低资源条件下基于TANDEM特征的藏语语音识别方法。为了提高藏语语音的识别效果,本文将长短时记忆网络模型生成的TANDEM特征引入到藏语拉萨方言的语音识别中。论文主要工作与创新如下:1、在声学模型层面,构建一个长短时记忆网络(Long Short Term Memory,LSTM)模型作为藏语声学特征提取器。网络包含一个输入层,一个输出层,网络的最后一层是一个后输出层,它不仅能在前向传播时评估目标函数,并且能将误差反向传递到输出层。为了使网络能够对长时序列建模并且能够充分挖掘上下文相关信息,隐含层设置三层的BLSTM。训练时引入线性投影层减少模型参数,提高实验训练速度。2、在声学特征层面,利用LSTM构建的声学特征提取器获得更加具有区分性的TANDEM声学特征。TANDEM特征是用LSTM对训练语料的帧进行分类,先使用BP(Back Propagation)算法和最小交叉熵准则训练网络的权重,获得音素级后验概率。实验中不直接使用LSTM的输出,而是利用LSTM比较窄的一层的值作为声学特征,再使用传统的GMM-HMM训练和解码。3、实现了基于TANDEM声学特征的LSTM-HMM藏语语音识别。以长短时记忆网络作为藏语声学特征提取器获得TANDEM声学特征,然后应用隐马尔可夫模型(Hidden Markov Model,HMM)进行藏语识别。实验结果表明,在本文建立的语料库测试集中,本文的方法能够有效改善低资源条件下的系统识别性能,相比GMM-HMM基线系统有15%左右的词错误率的降低。
其他文献
当前,全社会走向“互联网”时代,办公室工作也由传统的工业化思维转向互联网思维.办公室的接待工作不再停留在简单的迎来送往的层次上,而是上升为企业看似被动、实则主动的一
用同位素稀释 α谱法测量了土壤中2 39,2 4 0 Pu。以2 4 2 Pu作稀释剂 ,用三正辛基氧膦 (TOPO) /甲苯溶液萃取 ,草酸反萃 ,水相制备α源 ,用低本底α谱仪测量钚同位素的α能
网络大数据中与Web用户行为相关的数据,例如在线点击数据和通讯记录等,为人们深度挖掘和定量分析人类兴趣动力学带来了机遇,这些在线行为数据被称为大数据时代的"小数据",有
下肢动脉病变在世界范围内的发病率逐年攀升,其在糖尿病患者中更为常见,且往往临床发展、结局更差,尤其发展为下肢截肢的概率较非糖尿病患者提高4~5倍,膝以下的动脉血管病变
目前处理器通过持续增加核数和同时执行的线程数来提高系统性能.但是,增加共享内存的处理器核数和线程数会使得存储器中的行缓存(row-buffer,RB)命中率下降,造成存储器访问功
"关系"代表了中国几千年传统农耕文明下农民社会交往的一种价值面向,体现了我国乡村治理的本原逻辑。从"关系"到"社会资本",描述了新时期我国乡村社会资源配置的逻辑之变,也
<正>提供大量新素材、新信息,设置新情景,考查考生获取和解读地理信息、分析解决问题的地理思维能力,已经成为当今地理能力测试的显著特色。获取和解读信息的过程,是个体的思
新课程标准实施以来,我国的体育教科书推行“一标多本”形式,各省市地区可以自主编写符合国家体育课程标准,并具有不同特色和风格的体育教科书。学习课程标准并积极研究教科书,重视初中体育课程改革的实验工作,已成为一线体育教师和研究者的首要任务。本研究对已出版的初中五版《体育与健康》教科书插图的呈现类型、内容体系、组合方式、布局特征、主要功能五个维度进行分类、比较、分析,得出结论并提出建议,以期对教师的教学