论文部分内容阅读
随着互联网的兴起,大量以自然语言形式保存的知识存储在比如微博、网页、论坛和贴吧等介质中,因此关于这些知识的挖掘、自然语言处理和知识可信度研究成为几大热门研究方向。由于自然语言广泛存在歧义性,使得自然语言处理变得十分困难。词义消歧作为自然语言处理的基础性研究通常用在信息检索(IR)、信息抽取(IE)、机器翻译(MT)、内容分析(CP)等领域。在自然语言处理中,词义消歧一直是研究的重点和难点,它对其它的语言信息处理任务有重要的理论和实践意义。词义消歧作为一项“中间任务”,经常用在比如句法分析,机器翻译,文本处理,语音识别,信息检索等系统中。由此可见,作为自然语言处理过程的一个重要过程,它的研究成果可以直接应用在自然语言处理的许多方面。词义消歧(WSD)系统需要大量知识进行推理,然而这些知识的匮乏导致了低准确率、覆盖率,称为知识获取瓶颈问题。上述问题妨碍了词义消歧系统性能的提升,限制了词义消歧系统实用化。另外,一个多义词在当前位置上的词义完全由其所处的上下文词语来确定,确定一个多义词的词义所需要的知识就蕴含在该多义词所处句子或篇章的上下文之中,一个多义词所在位置的词义由其上下文(语境)决定,上下文直接影响消歧效果。WSD被描述为人工智能(AI)完全问题,首先计算机要把无结构文档转化为结构化数据,然后根据知识库提供的知识或定义的一些规则确定单词语义。基于知识的无监督词义消歧关键在于知识的获取,知识越丰富,词义消歧效果越好,本文中基于WordNet为单词语义构建语义描述图从而为词义消歧提供了丰富的知识,克服了知识获取不足的问题。另外,只使用WordNet单一数据源,克服了有导词义消歧的需要大量人力进行词义标注作为训练集的难题,使得词义消歧系统应用到情景搜索项目中成为可能。基于上述问题,本文首先针对如何从知识源获取丰富的知识和构建有效的上下文2个方面展开研究。从词义消歧提出至今,已逾数十年,在这数十年中出现了大量知识源。而在英文消歧中,WordNet是最为常用的知识库,WordNet是由PrincetonUniversity基于语言学规则生成的可计算词典,本文选取WordNet作为唯一消歧知识库。选定知识库之后,接下来研究如何从WordNet中获取丰富的消歧知识,本文中基于WordNet构建了三种语义描述模型作为语义描述从而为词义消歧提供了丰富的知识,克服了知识获取不足的问题。另外上下文是决定词义消歧系统性能好坏的主要因素,目前为止,上下文提取方法主要有三种:基于滑动窗口提取上下文、基于依赖关系又叫搭配关系提取上下文和基于句法分析树提取上下文。下文中将详细介绍这几种方法,本文采用基于句法分析树结合语块分析选取上下文特征词的方法,经过实验验证,有效改善了词义消歧系统的性能。本文主要的研究工作及结果如下所示:一、借鉴基于句法分析树提取上下文的方法,提出基于句法分析结合语块分析提取上下文特征词的方法。首先,对歧义词所在的句子实现句法分析,得到句法分析树Ptree;其次,根据语块分析的中心词规则表提取中心词作为上下文特征词;最后,根据上下文实现词义消歧。二、本文提出了多策略消歧,即利用WordNet中同义词集之间的语义关系,根据不同词性的同义词集语义关系定义不同的消歧策略,然后结合上下文实现词义消歧。三、本文基于WordNet构建了三种语义描述模型作为语义描述,而为词义消歧提供了丰富的知识,克服了知识获取不足的问题。语言学家Firth这样评价过词义消歧:观其伴,知其意,即歧义词的词义是由其上下文语境所决定,语境是词义消歧的唯一根据,本文中的方法提取出的上下文对词义消歧系统的性能的改善提供很大帮组。针对知识获取瓶颈问题,本文通过对WordNet知识库中丰富的知识进行挖掘,为歧义词构建多种语义描述从而为歧义词的消歧提供了丰富的消歧知识,提高了词义消歧的准确率、覆盖率和召回率。测试集选用Senseval-3中的全文消歧任务,实验效果十分理想。基于知识的词义消歧系统主要包括以下几个部分:(1)文档预处理即将上下文表示成计算机能够理解的结构化数据;(2)根据知识库结合文中算法提取消歧知识;(3)根据上下文与消歧知识进行语义选择。