论文部分内容阅读
在由于万维网中的知识爆炸式增长,并随着万维网快速兴起,万维网上的海量数据都是以自然语言形式存储的,例如:网页微博、各种论坛、空间、贴吧等等存储介质上,所以,关于一些知识获取、挖掘,信息传播,自然语言处理NLP等研究方向迅速火热,但是,由于存储在“介质”上的知识存在歧义性,这样使得自然语言处理的过程就变得复杂、困难,而且机器学习无法判断语言之间的歧义性。于是,词义消歧应运而生了。词义消歧是自然语言处理中一个比较重要的分支,它也是自然语言处理过程中的基础性研究,通常包含:文本处理、语言识别、机器翻译MT、信息获取IE、信息检索IR、字典查询和数据分析等领域。由于词义消歧是自然语言处理过程中的难点和重点,因为词义消歧对其他应用有着重要的理论依据和实践意义。因此,词义消歧成为了中间任务,它也成为了自然语言处理的重要过程,将其研究成果直接应用于信息处理的很多方面。词义消歧WSD(Word Sense Disambiguation)工作需要具备完备的知识推理,而目前由于获取知识匮乏导致了词义消歧后的结果导致准确率降低和覆盖率减少,这也称为是获取知识匮乏导致了瓶颈的出现,这不仅限制了词义消歧性能提升,降低了词义消歧系统的应用范围。从另一个角度讲,词义消歧也可以根据单词所在的上下文来确定该单词的具体含义,所需确定的多义词必须是该多义词所在文中的上下文之中才有可能实现的,既是一个多义词的具体含义是根据其语境确定的,而在自然语言处理过程中计算单词上下文,务必会增加时间复杂度和空间复杂度的,用于单词所在上下文进行词义消歧时直接影响词义消歧的结果。词义消歧WSD也被认为是人工智能上完备问题,这种问题将必须转化为具有结构的知识文档,再次根据系统中提供好的知识库事先定义规则确定单词词义,一种基于WordNet上下文的词义消歧WSD的关键是获取在WordNet中的知识,如果在WordNet中获取的知识越多的话,词义消歧的结果就会越理想,本文中基于WordNet上下文的词义消歧算法中实现了为歧义单词建立了语义关系图,从而为词义消歧提供了丰富并且可信的知识源,本文的算法弥补了知识获取的瓶颈问题。此外,使用WordNet作为词义消歧的唯一知识源,减少了为多义词进行词义标注的难题,这样使之词义消歧能够成功地应用到语境搜索中。基于以上问题,本文将针对如何在WordNet中获取知识和为多义词建立语义关系图作为本文的主要研究内容,由于WordNet发展至今已经有十几年的历史,在其中蕴含着丰富的知识。确定上下文的方法有三种:一是基于滑动窗口的上下文获取上下文算法;二是基于依存关系获取上下文算法;三是基于句法分析树获取上下文算法。本文的主要研究内容及成果:一是依据句法分析树获取上下文特征词的算法;分析中心词表获取上下文的特征词;根据上下文进行词义消歧。二是本文使用WordNet中多义词之间的语义关系,再结合上下文进行词义消歧。三是本文中的算法构建三种语义关系图模型,这种语义关系图模型为词义消歧提供了大量知识。本文选取实验测试集是Senseval-3作为词义消歧任务,实验结果良好。作为本文的主要研究内容,由于WordNet发展至今已经有十几年的历史,在其中蕴含着丰富的知识。确定上下文的方法有三种:一是基于滑动窗口的上下文获取上下文知识;二是基于依存关系获取上下文知识;三是基于句法分析树获取上下文知识。本文的主要研究内容及成果:一是依据句法分析树获取上下文特征词的算法;分析中心词表获取上下文的特征词;根据上下文进行词义消歧。二是本文使用WordNet中多义词之间的语义关系,再结合上下文进行词义消歧。三是本文中的算法构建三种语义关系图模型,这种语义关系图模型为词义消歧提供了大量知识。本文选取实验测试集是Senseval-3作为词义消歧任务,实验结果良好。