论文部分内容阅读
语义排歧是指计算机根据上下文语境来自动确定词语的意义。它是自然语言处理的关键性研究课题,直接关系到信息检索,机器翻译,文本分类,语音识别等语言处理应用系统的效率。语义排歧在过去的研究中取得很大发展,但目前从语言的角度看,语义排歧主要集中在对普通名词,动词以及情态动词的研究,而对于英语介词语义排歧的研究较少,方法也比较简单,有较大的改进空间,因此本文基于形式概念分析的理论和方法探讨英语介词over的语义排歧。介词是表达词与词,词与句子之间关系的功能词。它是英语中最活跃的词类之一,在书面语和口语中占有重要地位。然而大多数介词具有一词多义的特征,并且各词义之间又紧密联系,容易在人际交流和自然语言处理中产生歧义,因此需要对介词进行语义排歧,这对介词研究和自然言语处理研究都具有重要意义。本文基于形式概念分析理论,以150万字的自然语言语为语料,对英语介词over进行语义排歧研究。首先基于训练组150个样本,利用形式概念分析的方法,构建over语义排歧模型。通过检验,得到排歧正确率为93%。进而,为了避免数据稀疏的问题,把训练组和检验组共450个样本放在一起,构建over语义排歧模型,得到排歧正确率为97.55%。两次构建的排歧模型都达到90%以上的正确率,证明了形式概念分析这种方法对于over语义排歧的有效性。相比之下,第二个排歧模型正确率较高,说明样本数量越多,提取的over语义构建模式就越多,其正确率就会较高。其次,基于这两个排歧模型,分别对over进行规则提取。这些规则是隐藏在over背后深层次的语义成分信息,对over语义排歧有重要作用,因此需要对两次提取的规则进行检验,得到第一个排歧模型正确率是96.33%,第二个排歧模型正确率是97.77%,证明这两次提取的规则都能有效地对over进行排歧。由于第二次所选取样本较多,正确率较高,提出的规则更客观更全面。再次,考虑到第二个排歧模型正确率较高,因此在此模型基础上,进一步探讨over语境特征之间的互动关系。研究发现:1)从语义句法特征层次分布上看,呈现出从完全由语义特征构成到语义句法特征共同组成再到完全由句法特征构成的梯度式分布格局。2)从语义句法特征对over意义影响上看,over三类意义可以单独由语义特征决定,或者由语义特征和句法特征共同决定.。3)从over意义的内涵和外延看,通常介词over意义的外延是由语义特征承担,而内涵则是由语义特征和句法特征共同承担。介词over排歧模型的构建以及语境特征互动关系的研究不仅有助于发现和更深层次的理解潜藏在over背后的知识,而且为其它复杂语义词的语义排歧研究提供了理论和实践依据。