样例指导的神经机器翻译研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：jljc123

【摘要】

：

样例指导的神经机器翻译研究了一类特殊的翻译场景,在此场景下,模型除了对给定的源语句进行处理之外,还会为源语句检索得到一个相似的样例句对,此时检索得到的样例句对扮演对

【作者】

：

曹骞

【出处】

：

苏州大学

【发表日期】

：

2020年01期

【关键词】

：

神经机器翻译样例句对噪音掩盖门控机制数据扩充

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

样例指导的神经机器翻译研究了一类特殊的翻译场景,在此场景下,模型除了对给定的源语句进行处理之外,还会为源语句检索得到一个相似的样例句对,此时检索得到的样例句对扮演对源语句的翻译有益的外部知识的角色,并在之后的过程中指导源语句的翻译,以帮助提升源语句的翻译质量。该翻译场景的典型应用包括在机器翻译中融合翻译记忆库、实例驱动的领域适应等,因此具有重要的研究和应用价值。本文开展了样例指导的神经机器翻译研究,主要内容如下:(1)基于门控机制的样例指导的神经机器翻译。为了将样例句对引入翻译模型中,本文提出使用一个额外的样例编码器来编码样例句对的目标端信息。这种方法可以将样例句对信息引入模型,但是检索得到的样例句对与源语句不会完全一致,直接将其引入无疑会将无关的噪音带入模型中,影响源语句的翻译。为了利用样例句对中的有用信息,同时又能避免噪音的影响,本文提出通过门控机制控制样例句对信息的流动,以提升源语句的翻译,中英语向上的实验结果证明了提出方法的有效性。(2)基于噪音掩盖编码器与辅助解码器的样例指导的神经机器翻译。门控机制是一种较为隐式的避免样例句对中噪音的方法,在获得了样例句对与源语句之后,我们可以通过直接比较其源端,从而显式的获得其中的匹配部分与不匹配部分。之后通过词对齐工具,我们可以将样例句对目标端中的噪音内容用一个特殊符号掩盖掉。这种方法可以直接去掉样例句对目标端中的噪音,但词对齐信息也可能存在错误,我们进一步提出了辅助解码器模型,引入了辅助解码器来帮助模型进一步学习使用样例句对中的信息,通过联合训练与参数共享,标准解码器在辅助解码器的帮助下能够更好地重用样例句对中的信息。本文在中英、英德与英西语向上进行了实验,实验结果与分析表明提出的方法在面对任意相似程度的样例句对时都可以获得提升。(3)基于数据扩充的样例指导的神经机器翻译。上面两种方法主要从模型结构的角度出发,通过样例编码器编码样例信息,这会带来参数的增加。除了使用这种方式将样例句对融合到翻译过程中外,本文也提出了基于数据扩充的方法来融合样例句对。具体而言,本文将检索得到的样例句对目标端拼接在源语句之后,并通过标签向量区分两者,这可以同时实现数据扩充与引入样例句对信息两个目的。实验结果表明将样例句对拼接在源语句之后,能够比直接将其作为训练语料加入模型带来更多的收益。

其他文献

基于Brown态的若干量子通信方法研究

量子信息学是量子力学和信息学等交叉形成的一门新兴学科,量子计算和量子通信是量子信息学的两大重要分支,纠缠态是其中重要的通信资源,在量子通信中有深远影响和广泛应用。2

学位

Brown态量子态远程制备隐形传态

CDMA移动通信系统在哈萨克斯坦地区的应用研究

哈萨克斯坦电信CDMA(Code Division Multiple Access,码分多址)网络在容量、覆盖和质量都有了大幅度的提高,已经覆盖了全部市区、一般城区、乡镇中心、重要交通干道及重要旅

学位

CDMA移动通信系统CDMA网络覆盖哈萨克斯坦农村

短文本情感分类技术研究

随着互联网技术与高速移动网络的飞速发展,产生了海量的各类网络数据。其中人们最常涉及、使用的就是互联网络中的大量短文本数据。这类数据通常包含了人们的对待事物、商品

学位

短文本情感分类深度学习词向量特征融合

水流冲刷对污水管内混凝土腐蚀的作用机制研究

近些年我国经济的飞速发展,市政基础建设水平有着显著提高,污水排放量也在逐年上涨,致使污水管长期超负荷运行,并且我国现有排水系统大部分已服役多年,遭受到了严重的腐蚀破坏,提高污水环境下混凝土的耐久性已刻不容缓。地下排污管道的腐蚀机理非常复杂,既有着污水水流冲刷的物理作用,又有污水中的化学物质对混凝土的化学腐蚀,还有污水中的微生物对混凝土的持续腐蚀。为了模拟污水管道内部环境下混凝土的腐蚀情况,本文首先

学位

污水混凝土腐蚀层微生物腐蚀

自闭症艺术疗育教学评价研究

建立科学有效的评价体系,可以监测教学目标的实现水平;在特殊教育机构中,更需要通过科学有效的评价,来监测教育康复的实施效果。“以学生为中心”的教育观念,提出了以学生发

学位

发展性评价学生中心自闭症艺术疗育马赛克动画

基于数据挖掘的集装箱装船翻倒优化算法研究

海运在运输体系中占据了极为重要的位置,是进出口贸易的重要运载通道。随着货物体量的持续攀升,码头间的竞争也日趋激烈。集装箱码头的作业效率是衡量其竞争力的重要指标,其

学位

集装箱码头装船翻倒精确解法启发式解法数据挖掘

采用PVTL补偿技术的输出缓冲器电路设计

传统的输出缓冲器为电路系统中各模块提供重要的信号通道,但只适用于相同工作电压的模块。为了能够完成由不同工艺制造的芯片之间的信号传输,传统的输出缓冲器已被层叠结构的

学位

输出缓冲器电压转换频率PVTL补偿工艺角探测电压转换器

大型压气站管道缺陷信号特征提取与识别

大型压气站内管道主要用于运输易燃易爆危险物质,其所处环境恶劣,因此常产生缺陷,其存在易产生极为严重的后果。为预防管道重大事故的发生,对管道需要进行定期的缺陷检测,检

学位

管道缺陷检测特征提取时频分布Wigner-Ville分布支持向量机

格上口令认证密钥交换协议研究

为了在公共网络中实现保密通信,需要首先在通信各方之间建立共享的对称密钥。口令认证密钥交换(password-based authenticated key exchange,PAKE)协议仅通过使用可记忆口令,

学位

口令认证密钥交换格环上带误差学习问题通用可组合性

基于quantum data locking提高量子信息安全性的方案

随着量子技术的不断发展,涌现出了许多方向的应用,量子通信作为其中最重要的应用之一,不断受到人们的关注。Quantum data locking(QDL)是量子通信框架下的一个协议。本文首先

学位

量子比特量子信息量子数据锁量子失谐

样例指导的神经机器翻译研究

其他学术论文