论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语名实词对齐为基础的应用日益增多。除了在机器翻译方面的应用的之外,双语名实体词对齐在术语提取、信息检索、翻译词典编纂、自然语言生成也有着重要的用途。据统计现有词典资源上查不到的名词,大部分是名实体,包括一些专业术语,因为这部分词汇更新较快。因此名词尤其是名实体的双语对应显得更为重要。由于传统的词对齐算法对于名实体词对齐得不到一个满意的结果,本文在原有的词对齐算法基础上探索了几种名实体词对齐的方法。并从对齐结果中自动抽取对译片断对构造对译片断库,应用到已有的EBMT系统中进行翻译结果评价。本文从以下几个方面进行了研究:1.本文运用在句法分析方面取得成功的基于转换的错误驱动算法建立了一个汉英名实体词对齐的自学习系统。在建立了一个拥有3592句手工对齐的语料库之后,通过自学习系统获取了大量规则,这些规则的获取方法不仅简单易行,更在应用于汉英名实体词对齐中取得了很高的正确率。2.针对英汉双语语料库规模不足的现状,本文将引入网络搜索频率数的方法。首先将双语句对中未被对齐的双语名实体作为关键词构造为查询条件,自动送入搜索引擎,然后对查询结果通过相关处理,获得可靠的名实体词对齐对。实验表明,该方法显著的提高了双语名实体词对齐的召回率。从实验结果可以看出两种方法的优缺点在一定程度上存在较强的互补性。因此,基于混合策略的名实体词对齐方法能够充分利用现有资源,有利于提高名实体词对齐的质量,是一种有效的名实体词对齐方案。3.在前面两章中,本文研究了双语语料库的名实体词对齐词技术,其目的正是为了能够更好地从双语语料库中自动获取高质量的翻译知识。翻译知识的质量将直接影响到翻译结果的好坏。本节通过对这些词对齐工具产生的翻译片断和翻译片断产生的翻译结果来评价词对齐工具的整体性能。通过对翻译结果的评价,验证了前面得到的对齐结果的有效性,也侧面反映了算法的优越性。