论文部分内容阅读
随着深度学习的快速发展,以神经网络为基础结构的神经机器翻译取得重大突破,在翻译质量上几乎全面超越了传统的统计机器翻译。神经机器翻译主要基于“编码器-解码器”框架对翻译过程进行建模,并采用注意机制建立互译词之间的对应关系。在这一框架下,如何建立更优的网络结构以进一步促进源句子语义信息的提取和转换受到众多科研人员的追捧和青睐。本文主要针对神经机器翻译中的三大主要模块(即:编码器、注意机制和解码器)提出相应的网络结构增强方法,在提升系统建模能力的同时增强系统的翻译性能。本文的主要工作如下:1、提出一种上下文感知的循环编码器模型。已有循环编码器采用双向循环神经网络来建模源句子,并且简单地将不同方向循环网络的表示进行拼接作为源端词的语义表示。这种建模方法隐式地假设了不同方向上上下文信息间的独立性,不利于源句子语义信息的精准提取。本文提出一种上下文感知的循环编码器模型,通过设计层次化的网络结构将不同方向上的上下文信息进行整合,融入到统一的句子表示之中。大规模NIST中文到英文和WMT英文到德文的实验结果表明本文提出的方法可以显著地改善翻译系统的译文质量,并有效地加快了系统的解码速度。2、提出一种基于循环神经网络的注意机制模型。当前注意机制通常赋予每个源端词一个权重,然后采用线性加权和的方式来提取与翻译相关的语义信息。然而,这一模型本身是线性的,往往很难建模源词之间复杂的内部依赖关系以及源词和目标词之间多样的翻译关系,尤其不利于长句子的翻译。本文提出一种基于循环神经网络的注意机制模型,借助循环神经网络中门的结构来动态地探测与翻译相关的源端语义,并利用其内部复杂的非线性网络结构来更好地学习不同语言间的语义对应关系。实验结果表明,本文提出的方法可以显著地提升翻译系统的性能,并且在长句子的翻译上表现非常出色。3、提出一种基于隐变量的变分解码器模型。现有解码器大多是判别式的,只能利用源端的语义信息进行翻译。但是,同一个源句子往往存在多种风格不同、用词迥异却忠实而流利的标准译文,这些仅仅依靠源端信息是无法充分确定的。本文研究如何在解码过程中融入目标端句子的信息,并提出一种生成式的解码模型。通过将目标端句子的信息融入到隐变量的后验分布,并借助变分算法学习与后验相近的先验分布,解码器可以充分利用隐变量先验分布中蕴含的目标端信息。在NIST中文到英文和WMT英文到德文的翻译任务上,实验结果表明引入目标端的信息可以显著地增强系统的翻译能力,并有效地减少漏译和错译等问题。本文旨在研究如何设计全新的神经网络结构来增强神经机器翻译的建模能力。针对翻译系统中的三大模块:编码器、注意机制和解码器,本文分别提出了上下文感知的循环编码器模型、基于循环神经网络的注意机制模型和基于隐变量的变分解码器模型,并取得了令人满意的效果。