论文部分内容阅读
机器翻译是利用计算机技术实现源语言到目标语言的转换,是自然语言处理研究领域中最具挑战性的综合性前沿课题之一,有十分重要的研究和应用价值。端到端神经机器翻译是近几年来流行的一种机器翻译方法。不同于统计机器翻译的模块化结构,神经机器翻译通过建立一个可以同时学习和调整所有参数的神经网络,实现端到端的神经机器翻译模型。目前,尽管神经机器翻译已经占据机器翻译的主导地位,但仍有许多问题亟待解决,其中,由于词表规模受限所导致的集外词问题尤其重要。因此,如何有效处理神经机器翻译中的集外词,改善翻译性能,是目前研究的一个难点和热点。集外词不仅影响模型获得源语言句子的语义完整性,而且在语义和结构层面给目标语言生成带来不利影响。而传统的基于词向量相似度的集外词处理方法存在难以处理低频词和多义词、以及对生语料适应性差等问题。另一方面,如何在神经机器翻译中融合语义词典等外部知识库,提高翻译精度,也成为一项具有挑战意义的研究任务。为了解决上述问题,本文创新性地以在神经机器翻译中融合外部知识库为切入点,将语义概念应用于集外词处理中。本文的主要创新点和贡献如下:1.在神经机器翻译中引入了外部语义词典,尝试以语义概念解决集外词问题,利用外部人工知识库提升集外词替换的准确度,不仅能够改善集外词的翻译,同时提高了存在集外词情况下整个译文的质量。2.提出了一种融合单语语义概念的集外词处理方法。在翻译解码阶段利用WordNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。3.提出了一种融合双语语义概念的集外词处理方法。在模型训练阶段利用HowNet的语义概念和双语语言模型对训练语料的集外词对进行替换,提高翻译模型的参数质量;在翻译解码阶段利用HowNet的语义概念和单语语言模型对集外词进行替换,改善翻译效果。实验表明提高了翻译质量。本文成功地在神经机器翻译中引入了外部语义词典中的语义概念以解决集外词问题,英汉翻译方向的实验结果表明,我们提出的集外词处理方法不仅能够显著提升神经机器翻译的翻译效果,与传统的集外词处理方法相比也有一定优势。