论文部分内容阅读
机器翻译的评测对机器翻译技术的研究以及市场的推广具有重要的推动作用。评测的方法可以分为人工评测和自动评测,其中人工评测是指参照一定的标准和规范由人对机器翻译系统给出的候选译文进行评分;自动评测则是利用机器来完成这一打分过程,但要求打分的结果尽可能与人的评分相一致。本文的主要工作是对英汉机器翻译系统的自动评测方法进行细致的分析和研究。传统的机器翻译自动评测方法有很多,其中主要包括三种:BLEU、NIST、WER。BLEU的基本思想是通过统计翻译系统给出的候选译文和参考译文中共现n元词的个数和精度来计算评价分数。NIST在BLEU方法的基础上,提出了另外一种基于共现n元词的统计方法,它认为如果一个n元词在参考译文中出现的次数越少,那么该n元词包含的信息量就越大,就应该赋予更高的权重。WER方法的实质是通过对候选译文到参考译文之间的编辑距离进行某种归一化处理来对翻译系统的性能进行自动评测。尽管这三种方法给出的评测结果常常能够达到令人满意的相关性水平,而且BLEU和NIST方法已经被接受为国际标准,但是它们的评测结果在数值上与人工评测分数还有较大差别。正因如此,本文提出了NES /NED方法试图解决这一问题。NED /NES也是以编辑距离为基础,但是在理论上它的归一化处理比WER方法更合理,而且在实际应用中也比WER方法更接近人工评测的分数,同时与人工评测的相关性也不亚于其他方法。基于上面四种评测方法,本文设计并实现了一个英汉机器翻译自动评测系统---- ECEvaluation,该系统可选择大纲法和随机法生成测试集,而且可以分别从基于字和基于词两个角度对测试集的译文进行评测,同时提供了可视化界面使用户更直观的了解评测细节信息。通过对四个翻译系统的评测结果分析表明,该系统不仅达到了与“863评测系统”可比的水平和性能,而且它所包含的NED/NES与人工评测具有很好的相关性。