基于语法监督和深度强化学习的蒙汉神经机器翻译研究

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:sunrainnet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译近年来发展迅速,取得了非常丰富的研究成果。神经机器翻译利用神经网络的学习能力和泛化能力极大地提高了机器翻译的效果。然而神经机器翻译很大程度上依赖双语平行语料的数量和质量,这在一定程度上限制了弱资源机器翻译的发展。如何利用有限的语料和翻译方法提高弱资源翻译模型的翻译质量是机器翻译的重要研究方向。蒙古语是众多小语种中使用范围相对较广的语言,在内蒙古自治区是作为官方语言来使用,语言是文化交流的核心,蒙汉神经机器翻译的研究对于民族文化交流和传播具有非常重要的意义,也是对资源稀缺神经机器翻译研究的探索和推动。本文采用BPE(Byte Pair Encoder)字节对编码对数据进行预处理;以非自回归Transformer模型作为翻译框架,改进非自回归Transformer模型,从而提高模型的翻译质量;此外将目标语言语法标识信息融入模型来提升翻译质量;最后应用深度强化学习以序列信息作为训练目标,优化模型,提升模型的翻译性能。本文主要研究了:(1)本文采用BPE字节对编码对蒙汉平行语料进行预处理,得到BPE编码的蒙汉对齐语料,此外使用Stanford coreNLP进一步对汉语语料进行句法解析处理,为之后的翻译任务做准备。(2)本文采用外部解析器生成目标语言的ground truth语法标识块,使用分块算法产生语法标识块序列。然后将语法解析解码器融入非自回归Transformer翻译模型,语法解析解码器翻译输出语法标识快序列,语法标识信息的监督使得生成的最终翻译具有更好的语法结构,同时增强了翻译模型的解释性,并且在保持非自回归翻译速度较快的优势的同时提高了翻译质量。此外采用卷积神经网络CNNs对源语言输入句子进行句子级主题上下文的学习和提取,为语法解析解码器提供语句层面的特征。蒙语是形态变化丰富的语言,通过CNNs句子上下文主题注意模块提取特征可以学习到更多的源语言信息。(3)本文采用深度强化学习方法以序列级信息BLEU值作为目标来微调优化模型,将BLEU值作为奖赏reward,神经机器翻译模型作为agent智能体,迭代更新模型的参数,鼓励模型生成高质量的句子,而不是每个位置的正确词语token,此方法可以有效降低词语重复问题,并且进一步提升翻译模型的翻译质量。
其他文献
7055铝合金属于Al-Zn-Mg-Cu系合金,由于其比强度高、硬度高与易加工等优良特性,已经广泛应用于航空航天与高端运输装备制造领域,并且由于其合金化程度较高而赋予了其它特殊性能,已经逐渐成为相关领域必不可少的结构材料之一,然而7055铝合金材料的抗介质腐蚀性能与强度之间往往是互相矛盾的,如何在保证材料强度的基础上提高其抗介质腐蚀性能就具有重要的研究意义。本文应用计算模拟与实验相结合的研究手段,
生物质是一种可再生、储量丰富的能源,具有低碳清洁的特点;原煤是具有高灰分、低挥发分、低热值特点的劣质煤。随着我国工业化进程的加快,生物质与原煤的利用被各界人士关注,对生物质与原煤进行混合热解、燃烧具有实际的应用价值。本文选用内蒙古产粮区河套平原的玉米秸秆、内蒙古锡林浩特煤田的原煤为原料,研究原煤与玉米秸秆混合热解、燃烧及重金属迁移规律。主要研究内容如下:首先在氮气气氛下对原煤与生物质及其混合物进行
铬酸镧陶瓷是一种ABO3型钙钛矿体系的复合氧化物,耐腐蚀,高温下具有良好的化学与物理稳定性,是一种新型的电热材料,但是由于铬酸镧陶瓷本身的脆性及不易加工性,使得大而复杂的陶瓷制品制作困难,限制了它的应用范围,而且实际应用时,一些大而复杂的铬酸镧制品部分损坏后,无法再次利用。利用连接技术可以制备大而形状复杂的铬酸镧陶瓷,可以修复部分损坏的制品,为解决铬酸镧陶瓷的成型及修复的问题开辟了新的思路。二硼化
当今,固体火箭发动机已广泛应用于航天、国防、军事等各个领域,但其药柱成型工艺仍存在诸多问题需要改进与突破。固体火箭发动机药柱成型需要经过混药、浇注(插芯)和硫化三个工艺阶段,其中浇注(插芯)工艺阶段是药柱成型的重中之重。浇注(插芯)工艺是指芯模通过压板进入推进剂药浆的过程。在插芯过程中,芯模表面的空气会通过芯模运动进入推进剂药浆产生孔洞缺陷,导致推进剂药柱质量变差。为了解决插芯工艺中固体火箭发动机
Cu-Ni-Si系合金凭借其优异的耐腐蚀性、耐磨损性能和导热性而被广泛应用到各个领域,例如衬套、海水淡化管道、冷凝器和热交换器等零部件。但是随着使用环境越来越苛刻,上述零部件的使用寿命面临严峻的挑战。稀土改性为目前的热门研究方向,但其对Cu-Ni-Si系合金组织和性能影响研究并不完善。以不同稀土Ce含量的Cu-10Ni-7Si-5Mn-xCe合金为研究对象,通过光学显微镜、扫描电镜、透射电镜、X射
TC4钛合金作为α+β型双相钛合金的代表,具有高比强度、耐高温、优良的抗腐蚀性能,被广泛用于航空航天、船舶海洋及核电化工等领域,所以TC4钛合金的焊接也倍受关注。与其它焊接方法相比,活性激光焊具有能量集中、焊缝成形良好、焊接变形小、生产效率高等优点。然而该技术对于大厚件TC4存在焊接功率的限制、焊缝熔深不足、增加熔深机理不明确、活性剂成分保密,因此,研究活性剂对焊接效率和焊接质量的影响、探讨活性剂
毫米波SAR(Synthetic Aperture Radar)体积小,质量轻,适合无人机等小型灵活平台。但是无人机等平台运行不稳定,容易产生复杂的运动轨迹和较大的运动误差,对成像产生不利的影响。同时,随着对目标的检测、识别和认知能力的提高,为了获得更细节、更丰富的目标散射信息,对SAR成像分辨率提出了更高的要求。长合成孔径是实现SAR方位向高分辨率的基础,但是长合成孔径会导致严重的空变相位误差和
随着5G时代的发展,云中心产生海量数据,在网络边缘部署微型数据处理设备成为解决数据缓存问题和提升数据传输效率的方法之一,云服务的普及推动边缘计算的发展。从云中心到边缘节点间传输着大量数据,造成节点负荷超载、传输时延增大等弊端。为了缩减边缘网络传输过程中产生的海量数据,可以利用压缩技术对原始数据进行压缩。当边缘网络节点对数据进行分类、检测操作时,传输设备中数据信息处于压缩状态,需要对压缩数据先进行解
内蒙古自治区是我国重要的农牧养殖地区,养羊业是其中的标志性产业。随着信息技术的发展,数字化、智能化、自动化成为现代化养殖业的主要发展方向,羊只个体识别成为亟待解决的问题。目前,国内外对于羊只身份识别的方法仍然以射频电子耳标方式为主,但是这种方法具有成本高、对羊造成一定伤害、容易脱落、替换等缺陷。相比而言,以羊脸这一具有唯一性的生物特征作为鉴别依据,使用计算机视觉实现的非接触式羊只个体识别研究已经取
目前越来越多的沥青路面接近设计使用期,各种病害问题逐渐显现出来,如沉陷、车辙、拥包和推移等。当这些病害对沥青路面产生功能性损伤,不能满足正常的行车需求时,常采用的养护方法可在旧沥青路面上加铺一层新的沥青混凝土,从而延长路面服务年限,该方法具有对交通影响小、施工周期短以及修复后的路面服务性能好等优点。然而,这种加铺层沥青混凝土会受到旧沥青路面病害的残留影响,同时遭受环境因素的侵蚀,加铺后含层间界面的