论文部分内容阅读
【摘 要】CSLN 是引文语义链网络。传统相似度计算不能准确的测量CSLN中引文间的相似性。本文在对引文的特征进行分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
【关键词】引文;CSLN;相似性
1.引言
引文网络是指被引文献与引用文献之间因引用关系而形成的一种网络。语义链网络(SLN)是一个用于管理Web资源的语义数据模型[1]。一个典型的语义链网络包含语义节点,语义链以及语义链推理规则。其中,语义节点可以是任意类型的资源、抽象概念或者是另外一个语义链网络。语义链是对超链接的扩展,并为之添加语义关系。语义链继承了超链接的易用性,使之具有推理能力,并且具有语义自组织性:任意节点可以连接到其他语义相关的节点。利用语义链推理规则可以推导出更多的语义链[2]。
在这篇文章中,我们首先介绍了传统相似度计算模型,接着对引文的特征进行深入的分析后,最后提出引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
2.传统相似度计算模型
当我们进行引文相似度计算时,最常用的方法是采用数学工具把引文表示成一个数学模型,然后在这个模型上进行引文相似度运算。传统的相似度计算模型有向量空间模型和集合运算模型等。
2. 1向量空间模型
向量空间模型VSM是六十年代末由Salton等人提出来的。VSM是一种代数的模型,目前已经被广泛的应用于信息检索等领域而且已经取得了很好的效果。VSM的表示方法是它最与众不同的优点,VSM是通过把文本以向量的形式定义到实数域来对自然语言的文本进行表示。这种对自然语言文本的表示方法极大的提高了文本的可操作性和可计算性。而模式识别和其它领域中的计算方法也采用了VSM这种对文本的表示方法[3]。
向量空间模型VSM的基本思想是:我们用向量来表示文档,并且假设词与词之间是不相关的,这样就可以简化文档中關键词之间的复杂关系,从而使得向量空间模型VSM具备了可计算性。而在向量空间模型VSM中,把文档看成是由相互独立的词条组 (T1,T2,T3,……,Tn) 所构成,并且对于每一个词条Ti根据这个词条在文档中的重要程度赋以该词条一定的权值Wi。如果将这些相互独立的词条组(T1,T2,T3,……,Tn)看作是一个n维坐标系中的坐标轴,那么这些词条的权重(W1 ,W2,W3,……,Wn)就这些坐标轴所对应的坐标值。所以由这些词条组(T1,T2,T3,……,Tn) 分解得到的正交词条矢量组就构成了一个文档向量空间。
2. 2集合运算模型
3.引文相似性测量模型
一篇引文是由标题、关键字、正文等多个部分组成。因为引文的各个部分的重要程度不一样,所以在计算两个引文之间的相似性时我们应当把引文的各个部分分开当作多个对象来分析,而不能把一篇引文当作一个对象来分析。例如,引文的正文部分有大量的文字而且关键词很分散,所以我们应当采用统计词频的方法来计算两个引文之间的相似程度。而对于标题和关键字,因为关键字是整个文章中非常重要的一部分,所占权重也非常大,因此这一部分我们必须要重点考虑。所以我们在计算引文相似性时应该对关键字这一部分进行单独处理。
通过上述分析,本文提出了引文相似性测量模型,我们首先把一篇引文的各个部分分开来进行相似性测量,然后再把各个部分综合起来以此来计算两篇引文之间的相似性。
4.总结
计算两个引文之间的相似性有多种方法,因为CSLN中的引文是许多对象的集合。单个对象的相似度计算显然不能准确的测量引文间的相似性。因此,有必要针对引文的不同部分使用不同的相似度计算方法。本文首先介绍了传统相似度计算模型,然后在对引文各部分的特点进行深入分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
参考文献:
[1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG ’08, 2008, pp. 189-196.
[2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 6, pp. 785-799, 2009.
[3]侯海燕. 基于知识图谱的科学计量学进展研究[博士学位论文].大连:大连理工大学,2006.
【关键词】引文;CSLN;相似性
1.引言
引文网络是指被引文献与引用文献之间因引用关系而形成的一种网络。语义链网络(SLN)是一个用于管理Web资源的语义数据模型[1]。一个典型的语义链网络包含语义节点,语义链以及语义链推理规则。其中,语义节点可以是任意类型的资源、抽象概念或者是另外一个语义链网络。语义链是对超链接的扩展,并为之添加语义关系。语义链继承了超链接的易用性,使之具有推理能力,并且具有语义自组织性:任意节点可以连接到其他语义相关的节点。利用语义链推理规则可以推导出更多的语义链[2]。
在这篇文章中,我们首先介绍了传统相似度计算模型,接着对引文的特征进行深入的分析后,最后提出引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
2.传统相似度计算模型
当我们进行引文相似度计算时,最常用的方法是采用数学工具把引文表示成一个数学模型,然后在这个模型上进行引文相似度运算。传统的相似度计算模型有向量空间模型和集合运算模型等。
2. 1向量空间模型
向量空间模型VSM是六十年代末由Salton等人提出来的。VSM是一种代数的模型,目前已经被广泛的应用于信息检索等领域而且已经取得了很好的效果。VSM的表示方法是它最与众不同的优点,VSM是通过把文本以向量的形式定义到实数域来对自然语言的文本进行表示。这种对自然语言文本的表示方法极大的提高了文本的可操作性和可计算性。而模式识别和其它领域中的计算方法也采用了VSM这种对文本的表示方法[3]。
向量空间模型VSM的基本思想是:我们用向量来表示文档,并且假设词与词之间是不相关的,这样就可以简化文档中關键词之间的复杂关系,从而使得向量空间模型VSM具备了可计算性。而在向量空间模型VSM中,把文档看成是由相互独立的词条组 (T1,T2,T3,……,Tn) 所构成,并且对于每一个词条Ti根据这个词条在文档中的重要程度赋以该词条一定的权值Wi。如果将这些相互独立的词条组(T1,T2,T3,……,Tn)看作是一个n维坐标系中的坐标轴,那么这些词条的权重(W1 ,W2,W3,……,Wn)就这些坐标轴所对应的坐标值。所以由这些词条组(T1,T2,T3,……,Tn) 分解得到的正交词条矢量组就构成了一个文档向量空间。
2. 2集合运算模型
3.引文相似性测量模型
一篇引文是由标题、关键字、正文等多个部分组成。因为引文的各个部分的重要程度不一样,所以在计算两个引文之间的相似性时我们应当把引文的各个部分分开当作多个对象来分析,而不能把一篇引文当作一个对象来分析。例如,引文的正文部分有大量的文字而且关键词很分散,所以我们应当采用统计词频的方法来计算两个引文之间的相似程度。而对于标题和关键字,因为关键字是整个文章中非常重要的一部分,所占权重也非常大,因此这一部分我们必须要重点考虑。所以我们在计算引文相似性时应该对关键字这一部分进行单独处理。
通过上述分析,本文提出了引文相似性测量模型,我们首先把一篇引文的各个部分分开来进行相似性测量,然后再把各个部分综合起来以此来计算两篇引文之间的相似性。
4.总结
计算两个引文之间的相似性有多种方法,因为CSLN中的引文是许多对象的集合。单个对象的相似度计算显然不能准确的测量引文间的相似性。因此,有必要针对引文的不同部分使用不同的相似度计算方法。本文首先介绍了传统相似度计算模型,然后在对引文各部分的特点进行深入分析后,提出了引文相似性测量模型,该模型能够提高引文相似性测量的准确性。
参考文献:
[1]H. Zhuge, Y. Sun, and J. Zhang, “Schema theory for semantic link network,” in Proc. Fourth Int. Conf. Semantics, Knowledge and Grid SKG ’08, 2008, pp. 189-196.
[2]H. Zhuge, “Communities and emerging semantics in semantic link network: Discovery and learning,” IEEE Trans. Knowl. Data Eng., vol. 21, no. 6, pp. 785-799, 2009.
[3]侯海燕. 基于知识图谱的科学计量学进展研究[博士学位论文].大连:大连理工大学,2006.