基于半监督方法的蒙汉机器翻译的研究

来源 :内蒙古大学 | 被引量 : 6次 | 上传用户：RaymanL

【摘要】

：

近年来,随着深度学习的进步和对大规模平行语料库的使用,针对机器翻译领域的研究取得了令人瞩目的成绩,但这些成功的背后仍需要大量平行语料支撑。而蒙汉双语平行语料稀缺使

【作者】

：

武子玉

【出处】

：

内蒙古大学

【发表日期】

：

2020年01期

【关键词】

：

蒙汉机器翻译跨语言词嵌入自学习方法迭代回译半监督方法联合训练

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着深度学习的进步和对大规模平行语料库的使用,针对机器翻译领域的研究取得了令人瞩目的成绩,但这些成功的背后仍需要大量平行语料支撑。而蒙汉双语平行语料稀缺使得蒙汉机器翻译模型性能难以提升,本文通过构建基于单语辅助的蒙汉神经网络机器翻译模型,可以有效缓减蒙汉机器翻译任务中的平行语料稀缺问题,并将该方法扩展到基于短语的统计机器翻译模型上,更好地提升翻译系统的性能。最后对上述两个系统进行联合训练得到性能较好的翻译模型。本文具体工作内容如下:(1)本文提出了利用单语语料构建无监督蒙汉神经网络机器翻译模型的方法。该模型在训练过程中仅使用蒙汉单语语料,利用自学习方法对蒙古文端和汉文端单语词嵌入进行跨语言词嵌入训练得到双语词典,然后通过该双语词典和汉文语言模型初始化翻译模型。在无监督机器翻译系统中,利用迭代回译可以对语料进行有效地扩充,减少模型对平行语料的依赖,有效缓解蒙汉机器翻译任务中的平行语料稀缺问题。(2)本文实现了基于短语的半监督蒙汉统计机器翻译模型。使用无监督方法对基于短语的无监督蒙汉统计机器翻译模型进行建模,并将得到的伪平行语料与平行语料在有监督方法下训练基于半监督方法的统计机器翻译模型,提升基于短语的蒙汉统计机器翻译模型翻译性能。(3)本文实现了两种模型的联合训练方法。在基于短语的蒙汉统计机器翻译模型中,模型训练的最小翻译单元为短语片段,翻译得到的短语免去了局部调序的问题,这样可以更好的保留句子的结构信息,使得翻译效果有所提升。因此,本文将对半监督蒙汉神经网络机器翻译模型和基于短语的半监督蒙汉统计机器翻译模型在EM框架下进行联合训练,进一步提升蒙汉机器翻译模型翻译性能。本文通过实验验证了自学习方法在蒙古文和汉文这样相似性较低的语言之间的词嵌入训练效果优于基于生成式对抗网络方法,且无监督训练方法可以扩充语料进而提升低资源语言机器翻译模型性能,本文无监督蒙汉神经网络机器翻译模型BLEU值达到18.76。随后将无监督方法应用在基于短语的蒙汉统计机器翻译模型中,得到了较无监督神经机器翻译模型更好的表现,BLEU值达到27.15。由于使用无监督方法得到的伪语料噪声较多,不利于模型的语义抽取,因此本文使用无监督翻译模型得到的伪平行语料和双语平行语料进行半监督训练,对无监督模型进行改进,并结合统计机器翻译模型和神经机器翻译模型各自优势进行联合训练,实现性能高于单一系统的蒙汉机器翻译模型,BLEU值达到38.16。该模型性能超过有监督蒙汉神经网络机器翻译模型性能,为之后蒙汉机器翻译研究及其他低资源语言机器翻译任务的研究奠定了基础。

其他文献

余震中迁址，三天成书送灾区

四川汶川大地震发生后，天地出版社的办公楼也成了危楼，出版社紧急迁址后，克服困难，紧急出版了《震后儿童心理救助手册》和《灾后心理自助》两本心理救助图书。在台湾幼狮文化事业

期刊

迁址灾区成书心理救助出版社心理自助文化事业办公楼

基于钻削仿真分析的可转位浅孔钻辅助设计系统（IIDCAD）开发

为了提高浅孔钻设计质量和设计效率,分析了可转位浅孔钻在工程应用中存在的问题及研究现状;给出了基于＂单位切削刃＂思想的钻削力数学模型建立方法;以双刀片结构的浅孔钻为例,利

期刊

可转位浅孔钻数学模型几何参数优化计算机辅助设计系统接口技术Drill with indexable insertsMathematical model

芒果采后生理及保鲜研究的进展

芒果（Manigifera inolica L.）为世界著名的热带水果。芒果营养丰富,特别是V<sub>A</sub>的含量远比其他水果高,优良的商业品种每100g果肉含V<sub>A</sub>12—5mg（2000—5000国际

期刊

芒果树采后生理国际单位热带果王热带水果呼吸高峰气调贮藏常温贮藏辐射处理果胶含量

提高人居水平积极推进装修房建设

家庭装饰,作为一种现代人张扬个性和崇尚自我的体现方式,越来越受到人们普遍重视.自2000年以来,上海房地产市场就已经开始了毛坯房与装修房之争.当时普遍的认为是高级住宅及

期刊

家庭装饰毛坯房装修房建设

虚拟运营商行业融合通信产品营销策略研究

随着国内电信业的不断发展和电信改革的不断深入,具备创新互联网思维的虚拟运营商应运而生,成为电信业的又一重要力量。然而虚拟运营商受基础运营商的诸多限制,且在人财物、业务模式等方面存在一定的困惑,因此企业在发展过程中困难重重。对于虚拟运营商而言,只有转型升级探索出一条不同于传统虚拟运营商的创新发展路径,才能保持企业可持续发展。我国融合通信行业经过多年的发展,不论在政策上还是在技术和应用层面上均取得了突

学位

虚拟运营商融合通信营销策略

关于我国气体灭火系统国家消防工程技术规范总体框架的初步设想与几点建议

本文专题论述了关于我国气体灭火系统国家消防工程技术规范（以下简称《气系规范》）总体框架的初步设想与几点建议，可供参考。

期刊

消防工程技术国家规范总体框架气体灭火系统科学分类产品命名《气系规范》设想建议

不容忽视城镇建设浪费现象

期刊

城镇建设城市改造环境影响评价总体规划

益华鼎泰提出书业信息化“三驾马车”

在2006年北京图书订货会上，北京益华鼎泰科技发展有限公司作为书业信息化解决方案的专业提供机构，展开了关于书业信息化的一系列论坛——《用数字化打造书业信息化的灵魂》、《

期刊

信息化书业北京图书订货会电子商务平台2006年北京益华鼎泰科技发展有限公司解决方案

童心与爱心的交流——《卡米的故事》丛书成功引进的背后

2003年北京国际图书博览会上，作为希望出版社版权贸易工作人员，我与比利时海马出版社版权代理人董欣欣女士有了最初的接触。那时她向我推荐了《卡米的故事》丛书。该丛书于2001

期刊

丛书故事北京国际图书博览会希望出版社引进交流爱心童心

大班幼儿绘本阅读中的数学学习

阅读是幼儿数学学习的一种方法,了解幼儿在绘本阅读中数学学习的表现和特点对促进幼儿数学阅读的展开具有重要意义。本研究综合运用观察法和访谈法对大班幼儿绘本阅读中的数学学习行为进行深入分析,研究者共观察了88人次的阅读活动,依据操作性定义收集了214个数学学习行为样本,研究结果发现:大班幼儿在绘本阅读中的数学学习特点表现在数学知识技能方面,阅读可以帮助幼儿拓展新经验,加深对数学概念的理解,绘本本身也可以

学位

绘本阅读数学学习数学学习行为大班幼儿

基于半监督方法的蒙汉机器翻译的研究

与本文相关的学术论文