论文部分内容阅读
概念相似度的计算在信息检索、信息抽取、人工智能等方面逐渐成为研究热点,国内外大量学者在研究语义相似度算法时都是基于同义词典WordNet,利用其构建的树形结构图进行计算。目前较为常用的方法有利用语义距离进行计算、利用两概念间的信息内容进行计算,或者在两者基础上加入一些其他条件限制的混合方法。 利用语义词典来计算这些算法简单有效,比较直观,也比较容易理解。WordNet正是基于同义词集合构成的英文语义词典,利用上下位关系可以方便的计算概念间的语义相似度。基于WordNet,本文首先比较目前已经存在的五种概念相似度算法,并分析它们实现的依据以及优缺点,进而提出改进想法,为下一步工作提供理论基础。 传统的概念相似度算法在计算信息内容的值时过于依赖语料库,增加了计算的成本和复杂度。本文利用特征模型构建了一个新的相似度算法,此算法在Lin算法基础上考虑了公共特征因素与非公共特征因素对于不同概念对间相似度值的影响,并且在计算信息内容的值时仅仅依靠WordNet中的层次结构,摆脱了传统算法对于语料库的依赖性,降低了计算的成本和复杂度。实验结果表明,相对于传统的基于信息内容的相似度算法Resnik和Lin,本文提出的算法与人类主观判断结果数据库Miller andCharles的相关度取得了更大的值。 传统的短文相似度的算法往往计算的是两个文本间的共同特征和非共同特征,而忽略了文本间结构方面的因素。本文提出一种利用概念相似度和句子间结构相似度的方法共同考量短文的相似度,并且以λ赋予概念相似度和结构相似度不同的权重。实验表明,相比传统的文本相似度算法,本文提出的改进模型更加精确。