论文部分内容阅读
为提高检索质量,人们提出了一种新的信息检索方式——自动问答系统。自动问答系统能够对用户提出的问题,快速简洁地用自然语言进行回答,是目前一个热门的研究方向,拥有很大的发展空间。自动问答系统的相关技术离不开自然语言处理,句子相似度计算就是其关键技术之一,算法的优劣对自动问答系统的性能有直接的影响。目前对句子相似度计算的研究有很多,其中,句子的语义相似度是研究的热点。本文的研究是自动问答系统中基于WordNet的句子语义相似度算法。WordNet是基于认知语言学构建的一个大型的英语词汇数据库,在自然语言处理、信息检索等领域应用广泛。词汇是句子组成的基本元素,句子的语义信息都蕴含在词汇语义中,WordNet将词汇的语义用概念表示,所以可以把基于WordNet的句子语义相似度算法的核心归结为概念语义相似度的计算。本文通过研究大量的文献及算法,总结分析了WordNet中影响概念语义相似度算法的因素及现有算法的不足,在此基础上基于WordNet的分类层次树提出了一种新的CP(Conditional Probabilities)加权方法,将一个概念出现的情况下另一个概念出现的概率(条件概率)作为衡量权重大小的参数,并把上、下位关系间的权重区分开来,使权重分配更加合理,并给出了概念语义相似度算法的改进模型。该模型以概念的信息内容参数为基础,不仅考虑了概念所处分类树的密度和深度,同时也将概念间路径的影响因素加入其中,进而提高了算法模型计算结果的精准度,同时将该模型应用到句子语义相似度算法中,改善句子语义相似度算法的性能。本文的主要工作有:首先,阐述了本文的研究背景及意义,并介绍了自动问答系统的国内外研究现状以及句子语义相似度算法、概念语义相似度算法的国内外研究现状。其次,简单介绍了自动问答系统的相关知识以及常用的句子相似度算法。再次,为更加方便的对基于WordNet的句子语义相似度算法进行研究,详细介绍了WordNet的内容、语义关系以及组织结构。根据WordNet的层次结构提出了新的加权方法并改进了算法模型,将改进的概念相似度算法模型应用到句子语义相似度算法中,并通过实验验证算法性能。最后,概括了本文主要的研究工作,并指出接下来需要解决的问题,以及今后的研究方向。