本体概念相似度研究

来源 :北京工商大学 | 被引量 : 0次 | 上传用户:woyaopojiemimaya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
概念相似度的计算在信息检索、信息抽取、人工智能等方面逐渐成为研究热点,国内外大量学者在研究语义相似度算法时都是基于同义词典WordNet,利用其构建的树形结构图进行计算。目前较为常用的方法有利用语义距离进行计算、利用两概念间的信息内容进行计算,或者在两者基础上加入一些其他条件限制的混合方法。  利用语义词典来计算这些算法简单有效,比较直观,也比较容易理解。WordNet正是基于同义词集合构成的英文语义词典,利用上下位关系可以方便的计算概念间的语义相似度。基于WordNet,本文首先比较目前已经存在的五种概念相似度算法,并分析它们实现的依据以及优缺点,进而提出改进想法,为下一步工作提供理论基础。  传统的概念相似度算法在计算信息内容的值时过于依赖语料库,增加了计算的成本和复杂度。本文利用特征模型构建了一个新的相似度算法,此算法在Lin算法基础上考虑了公共特征因素与非公共特征因素对于不同概念对间相似度值的影响,并且在计算信息内容的值时仅仅依靠WordNet中的层次结构,摆脱了传统算法对于语料库的依赖性,降低了计算的成本和复杂度。实验结果表明,相对于传统的基于信息内容的相似度算法Resnik和Lin,本文提出的算法与人类主观判断结果数据库Miller andCharles的相关度取得了更大的值。  传统的短文相似度的算法往往计算的是两个文本间的共同特征和非共同特征,而忽略了文本间结构方面的因素。本文提出一种利用概念相似度和句子间结构相似度的方法共同考量短文的相似度,并且以λ赋予概念相似度和结构相似度不同的权重。实验表明,相比传统的文本相似度算法,本文提出的改进模型更加精确。
其他文献
期刊
国内外以新规制经济学视角对公立大学的政府规制研究尚处于起步阶段,本文基于新规制经济学的基础理论,从信息的对称性和是否有预算约束两个维度四个方面展开政府对公立大学的
浙江省诸暨广播电视总台是全国广播电视先进县之一,也是浙江省广播电视系统的先进集体。他们开办的各类节目紧紧围绕当地市委、市政府的中心工作,努力做到“三贴近”,办出地
江泽民同志在党的十五大报告中指出:“把我们的事业全面推向二十一世纪,就是要抓住机遇而不可丧失机遇,开拓进取而不可因循守旧,围绕经济建设这个中心,经济体制改革要有新的
期刊
倪萍主演的20集电视连续剧《浪漫的事》,不久前在中央电视台和许多省市台热播。该剧讲述的是妈妈和三个女儿的故事,平凡中有浪漫,幸福中有辛酸。剧中的主题歌唱道:“我能想到
期刊
科技企业孵化器和创业投资是推动经济发展的两种有效工具,二者在促进科技企业发展、培养优质企业家、促进科技成果产业化等方面发挥了重要的作用。21世纪的第一个10年已经过去
去年7月,山西某国有大型煤矿有一批子弟从大学毕业回矿工作,其中包括矿党委书记的儿子。分配期间,要求留在机关、科室和井上单位工作的条子很多,电话不断,有的干脆提着礼品
期刊
期刊