引文相似性测量模型

来源 :大陆桥视野·下 | 被引量 : 0次 | 上传用户:fenghuayi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】CSLN 是引文语义链网络。传统相似度计算不能准确的测量CSLN中引文间的相似性。本文在对引文的特征进行分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
  【关键词】引文;CSLN;相似性
  1.引言
  引文网络是指被引文献与引用文献之间因引用关系而形成的一种网络。语义链网络(SLN)是一个用于管理Web资源的语义数据模型[1]。一个典型的语义链网络包含语义节点,语义链以及语义链推理规则。其中,语义节点可以是任意类型的资源、抽象概念或者是另外一个语义链网络。语义链是对超链接的扩展,并为之添加语义关系。语义链继承了超链接的易用性,使之具有推理能力,并且具有语义自组织性:任意节点可以连接到其他语义相关的节点。利用语义链推理规则可以推导出更多的语义链[2]。
  在这篇文章中,我们首先介绍了传统相似度计算模型,接着对引文的特征进行深入的分析后,最后提出引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
  2.传统相似度计算模型
  当我们进行引文相似度计算时,最常用的方法是采用数学工具把引文表示成一个数学模型,然后在这个模型上进行引文相似度运算。传统的相似度计算模型有向量空间模型和集合运算模型等。
  2. 1向量空间模型
  向量空间模型VSM是六十年代末由Salton等人提出来的。VSM是一种代数的模型,目前已经被广泛的应用于信息检索等领域而且已经取得了很好的效果。VSM的表示方法是它最与众不同的优点,VSM是通过把文本以向量的形式定义到实数域来对自然语言的文本进行表示。这种对自然语言文本的表示方法极大的提高了文本的可操作性和可计算性。而模式识别和其它领域中的计算方法也采用了VSM这种对文本的表示方法[3]。
  向量空间模型VSM的基本思想是:我们用向量来表示文档,并且假设词与词之间是不相关的,这样就可以简化文档中關键词之间的复杂关系,从而使得向量空间模型VSM具备了可计算性。而在向量空间模型VSM中,把文档看成是由相互独立的词条组 (T1,T2,T3,……,Tn) 所构成,并且对于每一个词条Ti根据这个词条在文档中的重要程度赋以该词条一定的权值Wi。如果将这些相互独立的词条组(T1,T2,T3,……,Tn)看作是一个n维坐标系中的坐标轴,那么这些词条的权重(W1 ,W2,W3,……,Wn)就这些坐标轴所对应的坐标值。所以由这些词条组(T1,T2,T3,……,Tn) 分解得到的正交词条矢量组就构成了一个文档向量空间。
  2. 2集合运算模型
  3.引文相似性测量模型
  一篇引文是由标题、关键字、正文等多个部分组成。因为引文的各个部分的重要程度不一样,所以在计算两个引文之间的相似性时我们应当把引文的各个部分分开当作多个对象来分析,而不能把一篇引文当作一个对象来分析。例如,引文的正文部分有大量的文字而且关键词很分散,所以我们应当采用统计词频的方法来计算两个引文之间的相似程度。而对于标题和关键字,因为关键字是整个文章中非常重要的一部分,所占权重也非常大,因此这一部分我们必须要重点考虑。所以我们在计算引文相似性时应该对关键字这一部分进行单独处理。
  通过上述分析,本文提出了引文相似性测量模型,我们首先把一篇引文的各个部分分开来进行相似性测量,然后再把各个部分综合起来以此来计算两篇引文之间的相似性。
  4.总结
  计算两个引文之间的相似性有多种方法,因为CSLN中的引文是许多对象的集合。单个对象的相似度计算显然不能准确的测量引文间的相似性。因此,有必要针对引文的不同部分使用不同的相似度计算方法。本文首先介绍了传统相似度计算模型,然后在对引文各部分的特点进行深入分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
  参考文献:
  [1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG ’08, 2008, pp. 189-196.
  [2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 6, pp. 785-799, 2009.
  [3]侯海燕. 基于知识图谱的科学计量学进展研究[博士学位论文].大连:大连理工大学,2006.
其他文献
【摘 要】互联网技术的出现与发展,为教育领域带来了深刻的影响。基于互联网的英语在线课程建设,能够为学生提供更为开发的英语学习环境和更为丰富的英语学习资源,对于提升大学生英语学习成效具有重要意义。本文从学习资源建设与学习工具完善两个方面对英语在线课程建设策略做出了探讨,并从教师行为策略与学生行为策略两个方面对大学生英语教学改革策略进行了研究与阐述。  【关键词】在线课程建设;大学生;英语教学;改革策
【摘 要】医学是一门实践性较强的学科,在教学实践中我们要培养学生良好的职业素质,强烈的事业心、责任感,使他们具备对常见病、多发病的诊治和康复指导能力,对急、重病症的初步处理能力,成为既有基本理论又有基本技能的实用型医务工作者,是我国高职医学教育的重要使命。本文通过分析加强医学实验教学的重要性,针对高职院校医学专业实验教学中存在的突出问题提出几点改革措施,以期通过本文的阐述完善高职医学专业实验教学体