喀尔喀蒙古语声学模型研究与语音识别系统实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户：wq446395427

【摘要】

：

【作者】

：

海拉罕

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

我国内蒙古地区以察哈尔蒙古语为蒙古语标准语,蒙古国以喀尔喀蒙古语为蒙古语标准语。随着各类手机智能助手以及智能家居的普及,人机交互成为了研究热点。语音识别技术是人机交互中必不可少的一个环节。目前,英语、汉语、德语等语言语音识别系统已经达到了使用要求,但是基于喀尔喀蒙古语的语音识别研究仍处于初级阶段。为了推进蒙古语智能语音技术发展,本文根据喀尔喀蒙古语特点研究了基于深度学习和迁移学习的喀尔喀蒙古语语音识别系统,主要工作如下:（1）构建了喀尔喀蒙古语语音库,并以此为基础搭建了基于TDNN（Time Delay Neural Network）的喀尔喀蒙古语语音识别基线系统。针对喀尔喀蒙古语语料数据较少的问题,本文构建了总时长为80小时的喀尔喀蒙古语语料库。由69个蒙古国人参与录制,其中男性33名,女性36名。并以此为基础,实现了基于TDNN声学模型的喀尔喀蒙古语语音识别基线系统,识别准确率达到了80.75%。（2）研究了基于深度学习的喀尔喀蒙古语语音识别声学模型。首次引入CNN（Convolutional Neural Network）、LSTM（Long Short-Term Memory）、TDNN-LSTM和DFSMN（Deep Feed-Forward Sequential Memory Network）网络对喀尔喀蒙古语语音识别进行声学建模,有效提升了语音识别识别准确率。其中表现最优的基于TDNN-LSTM声学模型相比基线系统、CNN声学模型、LSTM声学模型和DFSMN声学模型词错误率分别下降了6.9%、17.7%、5.7%和10.3%。（3）研究了基于迁移学习的喀尔喀蒙古语语音识别声学模型。本文针对喀尔喀蒙古语属于低资源语言的问题,分别以英语和察哈尔蒙古语作为源领域,利用基于fine-tuning的迁移学习方法和基于权重迁移的迁移学习方法对TDNNLSTM喀尔喀蒙古语声学模型进行优化。实验结果表明,基于权重迁移的声学模型相较于基于fine-tuning的声学模型能够获得更高的识别准确率。以察哈尔蒙古语为源领域,基于权重迁移方法的TDNN-LSTM声学模型的WER（Word Error Rate）达到了12.12%。（4）搭建了喀尔喀蒙古语语音识别应用系统。本文采用Django框架,同时结合C/S架构,页面设计采用Lay UI框架,设计并搭建了喀尔喀蒙古语语音识别应用系统。将基于权重迁移的TDNN-LSTM的模型部署在该系统中,方便用户根据需求使用该系统进行喀尔喀蒙古语语音识别。

其他文献

甜瓜CmPYL4、CmPYR1基因在果实成熟过程中功能的初步分析

甜瓜是一种重要的园艺类瓜果作物,在全世界被广泛栽培。因其营养丰富、口感极佳,深受消费者喜爱,故研究甜瓜果实成熟具有重要意义。目前有关脱落酸受体参与果实成熟的研究主要集中在番茄和草莓,其它肉质果实的相关研究较少。本文以甜瓜品种河套蜜瓜为研究材料,探究了脱落酸（ABA）受体基因CmPYL4和CmPYR1基因在甜瓜果实成熟过程中的作用,取得的主要结果如下:（1）对甜瓜脱落酸受体基因家族成员进行了鉴定,得

学位

面向历史报纸的蒙古文文字识别系统研究与实现

报纸是新闻媒体的一种手段,具有记录实事,传播信息的作用。作为信息传播的重要载体,报纸的内容应当是真实的、及时的且可靠的。蒙古文历史报纸是少数民族地区用蒙古文记载实事新闻的印刷出版物。经过长时间的馆藏存储,报纸文献的页面出现了褪色、缺失、污损、折叠等不同程度的损坏。为了更好的保存蒙古族文化遗产,蒙古文历史报纸文献的数字化工作正在全面实施。然而,由于蒙古文报纸文字书写的独特性以及样本数据集稀少等问题,

学位

纤维素酶荧光探针的制备及初步应用

精准表征纤维素酶与底物有效吸附,是优化预处理条件,探究纤维素酶促水解反应机理的重要前提。本论文利用毕赤酵母异源表达、制备纤维素酶荧光探针;明确了纤维素酶荧光探针的吸附条件;考察了不同细胞壁与纤维素酶吸附特点。主要结果如下:（1）构建了3种重组质粒,并在毕赤酵母中异源表达,获得重组菌株,发酵8天时,Cel7A-M酶活为0.21 U/m L,Cel5A-G酶活为0.41 U/m L,BglⅠ-B酶活为

学位

基于MapReduce编程模型的Fortran代码重构

Fortran语言一直被广泛用于解决科学和工程中的计算密集型问题。由于多核架构的出现,追求Fortran的并行性成为科学计算领域中的一个重要目标。然而在大数据时代,多核架构由于计算资源不足和可扩展性差,导致多核并行后的Fortran程序仍然无法适应数据的爆炸式增长。云计算作为一种商业计算模型,不仅具有丰富的集群计算资源,而且具有理想的灵活性和可伸缩性,这为解决多核并行领域中计算资源不足等相关研究问

学位

噬菌体T4多聚核苷酸激酶的表达纯化和活性分析

多核苷酸激酶/磷酸酶（polynucleotide kinase/phosphatase,PNKP）能催化γ-磷酸基团从核苷三磷酸转移到DNA或RNA的5′羟基末端,导致核酸磷酸化,而核酸磷酸化对DNA损伤修复起关键性作用。噬菌体T4 PNKP是PNKP研究中的典例,也是分子生物学中最常用的酶之一。噬菌体T4 PNKP具有5′激酶和3′磷酸酶活性,分别介导磷酸化和去磷酸化反应,并且反应可同时进行。

学位

面向车联网应用的边缘服务资源分配策略的设计与实现

随着汽车行业和通信技术的飞速发展,车联网技术也得到了快速发展。智能化车辆的出现以及智能化服务的普及导致人们对服务需求的类型和数量也不断增多。由于车辆自身硬件配置的限制,无法满足计算密集型复杂车辆应用处理的资源需求和低时延需求。边缘计算的提出有效的解决了上述问题,同时也产生了边缘资源滥用的新问题,不合理的边缘资源分配方案导致边缘服务器的资源利用率不高。特别是对一些需要多服务器联合才能处理的复杂任务,

学位

基于DNA甲基化的急性T淋巴细胞白血病分子亚型分析

急性T淋巴细胞白血病（T cell acute lymphoblastic leukemia,T-ALL）是一种免疫表型高度异质性的血液系统恶性克隆性疾病。基因组DNA甲基化修饰变化是T-ALL重要的表观遗传学调控方式,在正常和肿瘤细胞中维持稳态。近年研究证实,在T-ALL发生发展进程中DNA甲基化转移酶DNMT家族和去甲基化酶活性的TET蛋白家族持续动态调节各亚型细胞群,维持异质性特性中发挥重要

学位

专利问题理解模型与算法研究

近些年来,知识产权保护越来越受到世界各国的重视。专利作为知识产权的一种重要形式,数量在逐年增加。为了更好地使用数量愈加庞大的专利,首先需要理解专利的问题。专利的问题包括两个方面,即专利文本中的问题句和专利问答中对专利的提问。专利作为一种复杂的科技文本,是围绕问题句进行展开的。因为问题句描述了专利所要解决的问题,所以识别问题句是专利问题理解的关键。目前,通过计算机识别专利中的问题句面临着专利问题句相

学位

面向微服务重构的关系数据库拆分方法研究

随着业务规模与需求的变化,传统单体系统架构开发效率低、维护成本高、扩展能力弱等问题凸显。微服务架构具有混合开发、灵活扩展、便于维护等特点,将遗留系统重构为微服务架构可以提高软件系统开发运维效率、提升系统可扩展性。但是,在微服务重构的过程中面临诸多挑战,数据库拆分就是其中需要重点解决的问题。不对数据库拆分或者拆分不当将导致重构后的系统性能下降、可用性降低。本文针对微服务重构过程中的数据库拆分问题,提

学位

政策的市场效应分析方法研究

股票预测是学术界近年来热点研究之一,但股价波动受多种因素影响,预测难度较大。政策作为国家长期发展规划,保障着证券市场的平稳运行,股市固有的提前预期特性使得国家政策变动必然会反映到股市活动中,故挖掘政策因素的影响可为投资者提供有效参考信息。历来很多文献致力于研究政策与股票市场波动的关系,但仍存在两个不足:一是针对政策内容的分类标准较少,且研究人员在对政策进行分类时多采用人工标注方法,分类成本较高;二

学位

喀尔喀蒙古语声学模型研究与语音识别系统实现

与本文相关的学术论文