面向神经机器翻译的领域适应方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:xiaobaitu11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据驱动的机器翻译技术的性能在很大程度上取决于训练和测试数据之间的领域匹配程度。由于不同领域训练数据差异大导致跨领域翻译性能下降,研究者通常通过使翻译系统适应到目标领域的方法来提高特定领域的翻译性能。神经机器翻译(NMT)领域适应研究的主要策略大致可以分为两类:一类是将领域外的知识迁移和适应到领域内的翻译中;另外一类是使用混合领域语料构建翻译模型来翻译多领域文本。本文分别针对这两类情景,开展了面向神经机器翻译的领域适应方法研究。本文主要工作包括:(1)基于句子权重的神经机器翻译的领域适应方法。在机器翻译中,与目标领域相关的那些领域外的实例对于模型的训练通常是有益的,而那些与目标领域不相关的领域外数据可能会降低翻译质量。在本文中,我们提出一种基于句子权重的领域适应方法,根据句子与目标领域的相关程度来评估句子的权重,并将权重融入NMT影响参数更新。我们将该方法应用在标准的领域适应和低资源领域伪语料训练的两个场景中,在中英IWSLT领域适应任务和低资源的电商领域翻译任务中,该方法均取得了特定领域翻译性能的显著提升。(2)基于自注意力机制的神经机器翻译的多领域适应方法。在通用平行语料库上训练的模型通常会受到数据领域多样性的影响,我们期望用单个模型来同时提升多个领域的翻译质量。在本文中,我们为多领域翻译提出了一种基于领域感知的自注意力机制,强制NMT模型同时编码和解码语义信息和领域信息,联合学习领域表示以训练多领域的神经机器翻译系统。在中英和英法的多领域翻译任务上,实验结果显示,各个领域的翻译质量均得到了提升,表明了基于领域感知的自注意力机制的多领域NMT方法在多领域适应上的有效性。(3)基于无监督单词级别的神经机器翻译的多领域适应方法。现实的多领域的翻译场景要求模型具有可扩展性,且能适用于未知领域信息的句子输入的训练与翻译。在本文中,我们提出了基于无监督单词级别适应的多领域神经机器翻译模型,与基于领域感知的自注意力机制一起,通过基于领域注意力网络的单词级别的无监督学习、加入辅助的损失的引导学习等方法来学习词的领域表示。在中英多领域翻译任务上的实验和分析表明,我们的模型显著优于基线系统,并且确实学习到了数据的领域结构。进一步的分析实验表明,即使没有与领域结构相关的先验知识,我们的模型也可以学习到领域信息,并将句子按领域聚集起来。
其他文献
一种新型超耐强化复合地板近日由广东森岛实业有限公司从德国引进国内市场。 超耐磨强化复合地板在欧美等国曾风行十年之久,该产品由纯木屑制成,属绿色环保型产品,对人类健康
企业是否具备良好的竞争优势是企业在激烈的市场环境中生存与发展的先决条件。关于企业竞争优势领域的研究一直是热点。最初,对企业竞争优势研究多集中于企业内部的资源与能
随着中外文化交流日益频繁,越来越多的外籍教师进入中国课堂教授专业课程,向中国学生介绍外国教育观念和经验,这对课堂口译人员提出了很高的要求。笔者以2018年北京市朝阳区
<正> 1.合作化还是商业化。目前,我国农村信用社的改革到底要走哪一条道路,是恢复合作金融组织,还是改造成为地方性股份制商业银行,目标仍然不够明确。信用社要想恢复真正的
电视新闻手语传译员在节目中语序的使用与聋人受众能否理解新闻内容有着紧密的联系。学界关于聋人自然手语语序的研究已有部分成果,这对于我们进一步了解手语传译员语序使用
截止到2016年8月底,大庆油田南一区中块葡一组主力油层聚合物驱平均单井日产油1.6t,含水98.5%,该区块低效、无效循环严重。根据相关稳产思路安排,葡Ⅰ1~4油层三次采油结束后
装备制造业作为我国国民经济的重要产业,其发展好坏对国民经济产生直接的影响。内蒙古作为我国的重工业生产基地,在供给侧结构性改革的时期,如何抓住这一机遇来提升技术创新
绝大部分的饮料、油类和调味料等都是用瓶罐包装的,这虽是单纯的瓶罐包装,但在国外却赋予它许许多多新颖的功能和设计,大大促进了商品的销售.目前已出现的瓶类包装新技术有以
2017年12月8日,国家质量监督检验检疫总局、国家标准化管理委员会批准《绿色产品评价人造板和木质地板》等13项国家标准,并予以公布。GB/T35601-2017《绿色产品评价人造板和木质
穿心莲内酯是从穿心莲中提取的主要药效成分,具有明显的抗炎作用。本试验旨在研究穿心莲内酯抗LPS诱发的小鼠乳腺炎的信号转导机制。选取36只分娩后第5~7天的初产、泌乳母鼠,