藏语语音深度特征提取及语音识别研究

被引量 : 0次 | 上传用户:dsclq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对语言信息处理研究工作的不断深入,藏文信息处理技术也从文字处理逐步转向语言信息处理。藏文自动分词和词性标注是进行藏语语义理解、藏文信息检索、藏语与其他语种之间的机器翻译等的首要问题。藏语是我国一支重要的少数民族语种,藏语语音识别技术的研究与发展不仅可以使得不同民族之间的语言进行无障碍的沟通交流,也可以促使藏区经济、文化、教育等各领域的发展。而目前藏语语音识别研究仍处于初期阶段。进入21世纪,深度学习逐渐成为语音特征提取的新的研究方向。深度学习采取多层非线性变换技术从原始数据中提取由低到高、由具体到抽象、由一般到特征语义的特征。本文将深度学习应用到藏语语音识别研究当中,首先介绍藏语语音识别的研究现状、语音识别的基本原理及其深度学习的相关理论,并着重阐述了深度特征提取模型在藏语语音识别的中的应用。1.基于深度学习的藏语语音特征提取研究深度学习能够克服人工设计特征会使原始语音数据特征丢失的缺点,学习出人工无法定义的特征。因此,基于大数据和深度学习来学习特征,更能反映数据的丰富内在特征信息。本文主要使用稀疏自动编码器和深度置信网两种模型来提取藏语语音特征。从模型原理展开,就藏语特征提取模型的无监督预训练和有监督的微调方法做了详细描述。2.基于深度特征的藏语语音识别声学模型研究基于深度学习提取的特征,使用GMM-HMM方法建立声学模型分别对音素和音节识别。实验证明,与MFCC特征相比,基于SA+MFCC特征的音素识别率最高为69.05%,提高10.22%,音节识别率为48.54%,提高了24.6个百分点;基于DBN+MFCC特征的音素识别率最高为69.46%,提高10.63%,音节识别率为49.04%,提高了25.1%,并且DBN模型使用更少的迭代次数,因此,DBN模型效率更高。在以后的藏语语音识别研究工作中,我们可以采用DBN模型进行藏语连续语音识别的深度特征提取。
其他文献
通过公式计算分析了在公路路线纵断面设计中竖曲线部分任意点纵坡的变化规律,找出了竖曲线中产生不满足《规范》要求的最小纵坡的条件以及路段长度,对大半径竖曲线在高速公路
Journal club在欧美医学生毕业后教育中有着悠久的历史,其主要目的有三:阅读最新的医学文献;指导临床实践;批判性地阅读,实例学习文章的设计、医学统计和流行病学处理等知识
生态意识的培养和形成是大学生素质教育实现的一个重要组成,可通过观鸟活动的开展,把单纯对动物的爱转化成对自然的爱与敬畏,进一步形成朴素的生态价值观。
电视节目版权管理作为电视台的一项基础性工作,事关电视业发展的全局和长远利益。加强节目版权管理,有利于从整体上提高电视业的管理水平,促进电视业形成良性的竞争秩序,提高
<正>与世界上很多国家将影视产业归入文化产业、创意产业不同,美国将其归入版权产业,以凸显知识产权保护对影视产业发展所起的核心作用。美国的电视节目特别注重自身的版权保
目的探讨联合检测糖化血红蛋白和糖化血清蛋白在糖尿病筛查中的应用价值。方法随机选取我院2010年3月-2013年7月期间收治的糖尿病高危人群90例,按照患者的空腹血糖水平(FPG)
农民开设网店能够实现农产品产供销一体化,逐步成为农产品营销的一条重要途径。构建了消费者网购农产品影响因素的指标体系,通过实证研究揭示了影响消费者网购农产品的关键因
◎我发现,这位主要生活在布拉格的、用德语写作的犹太作家,对中国当代文化的影响几乎遍及各个领域,除了文化领域,甚至延展到旅游、房产、家具、餐饮等领域。可以说,“卡夫卡”已经
报纸