论文部分内容阅读
在现今全球化时期,人们对翻译的需求越来越大,机器翻译技术飞速发展。如何准确、快速地评价翻译系统性能,已成为影响机器翻译发展的一个关键因素,对机器翻译的研究有着非常重要的意义。人工评价的准确性较高,通常用来评价翻译系统的性能;同时人工评价结果作为标准,用于评价机器翻译自动评价方法的性能。人工评价的作用和贡献不容小觑。但是,人工评价需要大量的人力、物力,而且耗时长,不能满足机器翻译技术快速发展的需求。因此,机器翻译自动评价技术以其快速、可重现性高的优势,获得越来越多的关注和研究,新的自动评价方法不断涌现。 本文对机器翻译评价中的关键问题进行探索研究。本文首先提出参考译文对人工评价影响的探索方案,确保人工评价的可靠性;其次,本文提出两种与人工评价相关性很高的机器翻译自动评价方法。主要创新如下: 1.参考译文的选择对机器翻译人工评价的影响研究 在机器翻译人工评价时,评价者通常使用参考译文取代源文,通过比较机器译文和参考译文来评价机器译文质量。由于人类语言表达的多样性,一个源文可能会有多个参考译文,它们都是源文的完美翻译,但是在选词、句法结构等方面存在差异。那么,在使用不同的参考译文作为标准时,评价者会给同一个机器译文差别很大的评分吗? 针对此问题,本文提出多角度探索参考译文是否会给机器翻译人工评价带来显著性影响的研究方案。在前人工作基础上就评价者间一致性做深入的分析实验,并使用直接评估数据探索使用参考译文带来不合理的人工评价结果的程度。不同于前人工作结论以及人的直观推测,多角度的实验均没有显示出参考译文会给人工评价带来显著性影响的证据。此研究结论,确保了使用参考译文作为标准的人工评价结果,用于下文中提出的自动评价方法的评测,能给出准确的评估结果。 2.基于深度学习的机器翻译自动评价方法 机器翻译自动评价方法通常从句子离散结构的表示入手来评价机器译文质量,比如从词汇、词性、句法等角度。近些年深度学习技术的发展,使得机器翻译自动评价可以从句子在连续空间上的表示入手来评价。因此本文提出利用神经网络学习句子的实数向量表示,进而计算机器译文和参考译文各自的实数向量表示之间的相似度来评价机器译文质量,并通过在网络中加入其他特征进一步提高网络性能。为解决目前翻译评价数据资源有限的问题,设计神经网络在训练阶段优化目标为最大化两个相似度的差:一个为质量高的机器译文和参考译文之间的相似度,另一个是质量低的机器译文和参考译文之间的相似度。实验表明,基于深度学习的自动评价方法与人工评价的相关性达到了与当年最高水平相近的结果。 3.基于融合策略的机器翻译自动评价方法 机器翻译评价发展至今,已经产生诸多从不同角度衡量机器译文质量的自动评价方法。虽然单一的自动评价方法与人工评价的相关性不够理想,但是不同的自动评价方法都从不同的角度评估机器译文,反映机器译文在不同角度上的质量。如果融合各个自动评价方法在不同角度上的评价,形成一个多角度评估机器译文质量的自动评价方法,将会更全面、准确地反映机器译文的真实质量。因此,本文提出使用机器学习算法来融合各个自动评价方法的评分,使用直接评估人工评价结果指导训练过程,形成一个与人工评价的相关性达到目前最高水平的自动评价方法。该融合评价方法,又可以作为一个通用框架,方便地应用到不同的语言对上,也可以融入任意的自动评价方法。