论文部分内容阅读
英语名词短语识别在机器翻译中有着重要的作用。现有英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。本文提出一种英语功能短语及其自动识别方法,以消除英汉机器翻译中的名词短语结构歧义。基于名词短语在小句中的功能语法来确定名词短语的边界,这样的名词短语在本文中称为功能名词短语。研究工作主要包括英汉机器翻译中的名词短语结构歧义问题分析、英文词性自动标注和英文短语识别等研究。本文构建了一个小规模的商务领域英汉双语平行语料库作为研究语料,包含20万英文词和27万汉字。(1)英汉机器翻译中的名词短语结构歧义问题。基于忠实度与流畅度合并的机器翻译人功能评价方法,对SYSTRAN和GOOGLE机译系统的英汉机器翻译结果进行评测,分析了机器翻译中的词义歧义和句法歧义问题;在此基础上,归纳了机器翻译中名词短语的结构歧义问题。研究表明,不论是词义歧义问题还是句法歧义问题,都与名词短语的识别和理解有很大的关系。其中,N1+prep+N2是引起歧义的最典型的表层结构,这种表层结构容易引起的歧义主要体现在:与动词构成固定搭配的名词歧义问题;小品词引起的歧义问题;“介词+名词”作后置定语的歧义问题;以及“介词+名词”作状语的歧义问题等四种名词短语结构歧义。(2)研究面向英汉机器翻译的英语词性标注。研究了一个应用于机器翻译的英语词性标注系统,为功能名词短语的识别研究提供词性知识。在预实验的基础上,对宾州树库标注集进行细化和改进,形成了本文的词性标注集。依据此标注集,采用最大熵模型结合语言规则的方法进行了标注词性。实验结果表明,开放测试的精确率达到98.14%,未登录词的精确率为85.65%。(3)研究英语功能名词短语识别。本文识别了名词短语的边界和句法功能。首先依据系统功能语法,归纳了功能名词短语在小句中的功能,形成了本文的功能块标注集;其次选择了条件随机域模型结合语义信息和规则的方法进行了名词短语识别。为检验本文的词性标注集在功能名词短语识别中的作用,在开放测试中还选择了斯坦福标注器作为比较。实验结果表明,结合金标准词性实验的F值达到了89.04%。此外,使用本文的词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。