论文部分内容阅读
机器翻译是利用计算机将一种语言转换为另一种语言的过程,是自然语言处理研究领域的核心任务之一,有非常重要的科学理论研究价值。神经机器翻译(Neural Machine Translation,NMT)因其性能优越已经成为主流的机器翻译方法,也是深度学习在自然语言处理领域最成功的应用之一。神经机器翻译系统的高性能通常依赖于高质量大规模的训练数据和强大的计算资源,属于数据驱动的翻译方法。但是数据驱动的翻译方法,在面向资源稀缺语种的翻译时,会遭遇各种问题。
为了解决此类问题,促进机器翻译理论的发展,本论文的研究工作以数据和知识双轮驱动为指导思想,重点研究如何在NMT模型中融合语言学知识,以提高NMT系统的翻译性能和翻译质量。一方面,针对NMT系统的集外词和低频词问题,本论文提出了一种在NMT系统中融合语义概念知识的方法。另一方面,针对NMT系统的歧义理解问题,本文还提出了一种面向NMT的融合外部知识库的读取式建模和解码方法。实验结果证明,本文提出的方法可以有效地提高NMT系统的翻译性能。
本文的创新点和主要研究成果如下:
(1)提出了一种融合语义概念的“替换-翻译-恢复”的低频词、集外词处理策略。与传统方法相比,该方法从语义层次上对低频词和集外词问题进行建模,提高了低频词和集外词的翻译正确率,有效地改善了低频词和集外词的漏译或错译问题,并设计实现了三种融合语义概念的语义相似度计算方法,提高了语义相似度计算的准确性,进而改善了NMT系统中低频词和集外词的翻译效果。
(2)提出了一种融合外部知识库的读取式建模和解码方法。该方法基于图注意力机制,动态地将语义知识三元组信息融入神经机器翻译系统中。实验结果表明融入外部语义知识可以提高模型对歧义词的语义区分能力,从而提高翻译性能。
本论文的主要贡献体现在:实现了语义概念和外部知识库的知识与NMT系统的有机融合,通过方法创新和实验验证,拓展了NMT的相关基础理论。
为了解决此类问题,促进机器翻译理论的发展,本论文的研究工作以数据和知识双轮驱动为指导思想,重点研究如何在NMT模型中融合语言学知识,以提高NMT系统的翻译性能和翻译质量。一方面,针对NMT系统的集外词和低频词问题,本论文提出了一种在NMT系统中融合语义概念知识的方法。另一方面,针对NMT系统的歧义理解问题,本文还提出了一种面向NMT的融合外部知识库的读取式建模和解码方法。实验结果证明,本文提出的方法可以有效地提高NMT系统的翻译性能。
本文的创新点和主要研究成果如下:
(1)提出了一种融合语义概念的“替换-翻译-恢复”的低频词、集外词处理策略。与传统方法相比,该方法从语义层次上对低频词和集外词问题进行建模,提高了低频词和集外词的翻译正确率,有效地改善了低频词和集外词的漏译或错译问题,并设计实现了三种融合语义概念的语义相似度计算方法,提高了语义相似度计算的准确性,进而改善了NMT系统中低频词和集外词的翻译效果。
(2)提出了一种融合外部知识库的读取式建模和解码方法。该方法基于图注意力机制,动态地将语义知识三元组信息融入神经机器翻译系统中。实验结果表明融入外部语义知识可以提高模型对歧义词的语义区分能力,从而提高翻译性能。
本论文的主要贡献体现在:实现了语义概念和外部知识库的知识与NMT系统的有机融合,通过方法创新和实验验证,拓展了NMT的相关基础理论。