论文部分内容阅读
数据驱动的机器翻译技术的性能在很大程度上取决于训练和测试数据之间的领域匹配程度。由于不同领域训练数据差异大导致跨领域翻译性能下降,研究者通常通过使翻译系统适应到目标领域的方法来提高特定领域的翻译性能。神经机器翻译(NMT)领域适应研究的主要策略大致可以分为两类:一类是将领域外的知识迁移和适应到领域内的翻译中;另外一类是使用混合领域语料构建翻译模型来翻译多领域文本。本文分别针对这两类情景,开展了面向神经机器翻译的领域适应方法研究。本文主要工作包括:(1)基于句子权重的神经机器翻译的领域适应方法。在机器翻译中,与目标领域相关的那些领域外的实例对于模型的训练通常是有益的,而那些与目标领域不相关的领域外数据可能会降低翻译质量。在本文中,我们提出一种基于句子权重的领域适应方法,根据句子与目标领域的相关程度来评估句子的权重,并将权重融入NMT影响参数更新。我们将该方法应用在标准的领域适应和低资源领域伪语料训练的两个场景中,在中英IWSLT领域适应任务和低资源的电商领域翻译任务中,该方法均取得了特定领域翻译性能的显著提升。(2)基于自注意力机制的神经机器翻译的多领域适应方法。在通用平行语料库上训练的模型通常会受到数据领域多样性的影响,我们期望用单个模型来同时提升多个领域的翻译质量。在本文中,我们为多领域翻译提出了一种基于领域感知的自注意力机制,强制NMT模型同时编码和解码语义信息和领域信息,联合学习领域表示以训练多领域的神经机器翻译系统。在中英和英法的多领域翻译任务上,实验结果显示,各个领域的翻译质量均得到了提升,表明了基于领域感知的自注意力机制的多领域NMT方法在多领域适应上的有效性。(3)基于无监督单词级别的神经机器翻译的多领域适应方法。现实的多领域的翻译场景要求模型具有可扩展性,且能适用于未知领域信息的句子输入的训练与翻译。在本文中,我们提出了基于无监督单词级别适应的多领域神经机器翻译模型,与基于领域感知的自注意力机制一起,通过基于领域注意力网络的单词级别的无监督学习、加入辅助的损失的引导学习等方法来学习词的领域表示。在中英多领域翻译任务上的实验和分析表明,我们的模型显著优于基线系统,并且确实学习到了数据的领域结构。进一步的分析实验表明,即使没有与领域结构相关的先验知识,我们的模型也可以学习到领域信息,并将句子按领域聚集起来。