论文部分内容阅读
让计算机理解语义是五十余年来计算机科学家和语言学家一直致力解决的问题。目前,自动分词、自动词性标注的结果已经可以接受,而计算机对词义的理解正确率较低,在自然语言处理中是亟需跨越的障碍。而词义消歧的良好结果将影响自然语言处理的方方面面,如机器翻译、文本分类、信息提取等等。当前词义消歧总体上取得的结果并不令人满意,这也制约了自然语言处理的进一步发展。
本文首先探讨并指出了影响英语词义消歧结果的消歧重点;通过测试给出了英汉机器翻译词义消歧的上下限;最后实现了一个简单的英汉机器翻译译词选择系统,并以之为例,分析了上述研究在实践中的作用。
在进行词义消歧工作时,首先需要了解待消歧语言的词汇的歧义情况。本文利用一些可以获得的资源,包括传统字典、WorNet以及之前的统计研究,通过统计方法,分析了英语主要的开放词类—动词、名词、形容词、副词的歧义情况,指出解决英语词汇歧义的重点在于处理好常用动词、名词的最常用的几个义项。
在英汉机器翻译词义消歧中,由于涉及双语,单语的词义消歧上下限不再适用需要建立针对机器翻译的词义消歧上下限。本文通过统计WordNet中语义标注实例,得到了最大可能义项,并以之为词义消歧的下限;针对英汉机器翻译的独特特点,本文设计了调查问卷,通过计算人的义项选择之间的一致程度确定了英汉机器翻译中词义消歧的上限。
上述两项研究的结果在实践中可以对英汉机器翻译系统中的词义消歧提供一定的指导性作用,所以最后,本文实验了一个现有的英汉机器翻译词义消歧算法,根据前述结果对不同的实验结果进行了分析,给出了改进的建议。