论文部分内容阅读
摘要:近年来,随着网络科学的迅猛发展,链路预测成为目前的研究热点。因其有着广泛的应用,例如电子商务网站中的商品推荐,Facebook、Twitter等各种社交平台中的好友推荐,以及在生物领域中蛋白质或者是基因的网络机制与功能推测等,如何进行精准的链路预测的问题俨然备受瞩目。为了更加全面而深入地了解链路预测领域,以“Web of Science”核心合集收录的期刊论文及其参考文献为研究对象,利用关键词共现网络、文献共被引网络以及突现词分析,借助CiteSpace软件进行信息可视化,对链路预测的知识结构与研究热点进行了深入分析。
关键词:链路预测;知识图谱;CiteSpace
中图分类号:F27
文献标识码:A
doi:10.19311/j.cnki.16723198.2016.17.032
0引言
随着互联网技术的日新月异,各种知识呈现出指数级的爆炸增长趋势,人们对“网络”一词的理解也越来越丰富。起初,人们仅仅认识到计算机组成的万维网网络,后来随着认识的逐渐深入,人们发现生活中无处不存在着网状结构的事物。比如说社交网络的代表之一,新浪微博中的不同用户组成的复杂的人际关系网络,生物领域中的蛋白质分子结构呈现出来的网状结构,学术领域中存在的引文网络等。因此,对网络科学的研究,已成为当下的研究热点。然而,更重要的是,网络是动态变化的,研究各种不同网络的性质及其拓扑结构等相关知识最终是为了了解网络的发展规律,对网络的演化方向和趋势进行预测,也就是进行链路预测,从而更好地应对网络中的突变现象,并将这些知识应用到实际网络中。例如,电子商务网站中的“您可能喜欢的商品”推荐、科技文献下载后的“您可能感兴趣的文献”推荐,Facebook中的关注对象的推荐等等,由此可见,实际生活中无处不在将链路预测的成果进行应用。因而,链路预测俨然成为目前的研究热点和难点。
一般而言,学科领域知识发展脉络由该领域公认的“学术大牛”来完成对该学科知识的综合梳理。通常都是利用过去已有的文献进行人工梳理,很少利用统计工具或者可视化软件完成。本文采用客观计量的方式,以2005年到2015年间,“Web of Science”核心合集收录的与链路预测相关的期刊论文及其参考文献为研究对象,借助陈超美开发的CiteSpace分析软件,通过文献之间存在的引用和被引用的关系进行链路预测领域的知识结构和研究热点的整理和发现,为之后相关领域的深入奠定基础。
1CiteSpace工具介绍及数据采集
CiteSpace是由陈超美博士开发的一款对科学文献进行可视化分析的软件,它能够显示一个学科或只适应于在一定时期发展的趋势和动向,形成若干研究前沿领域的演进历程。它可以分析主流数據库的各种科学文献,并且无需对文献进行繁琐的数据预处理,只需用户进行简单的操作,即可自动生成揭示某学科领域知识结构随着时间的演变趋势,帮助用户迅速发现研究某学科领域的领军人物、相关研究机构和科研人员,还可以帮助用户梳理整个学科领域的知识图谱,以便更全面地认识该学科领域。
考虑到文献的质量,本文的数据源自Web of Science(以下简称WOS)引文索引数据库中的核心合集中的“SCI-EXPANDED”,以“link Prediction”为主题,文献类型选择“Article”,时间跨度从2005年到2015年,语种选择英语,进行检索,总共检索到11995篇文献记录。文献记录下载时间为2016年4月24日。
2链路预测的知识结构分析
由于引用文献与被引用文献的研究内容之间存在着相关性,并且各种参考文献之间同样存在着这种内容研究上的关联,参考文献之间的这种关系会随着被引次数的增加而加强。基于此,建立引文网络即可细分该领域的研究方向,厘清该领域研究的发展脉络,因此网络中被引频次高的文献即可被看作是本领域的知识基础。
本文利用CiteSpace软件对上述从WOS上下载文献记录的相关数据进行分析。其中,时间区间选择2005年到2015年,时间分割默认为为1年,术语来源选择标题、摘要、关键词,属于类型选择burst terms,即频次变化率高的词。在引文数量(C)、共被引频次(CC)和共被引系数(CCV)三个层次上,按前中后三个时区分别设定阈值为(2,2,20),(4,3,20),(4,3,20),其余的由线性内插值来决定。由于文献数量较多,因此需要对复杂的网络进行剪裁,则相关的参数设置为路径寻找、修剪片段网络和合并网络,最终生成静态聚类图,最终以合并网络的形式展示结果。结果如表1所示。
利用CiteSpace绘制出链路预测领域的11995篇文献的共被引分析图谱,结果见图1。
在图1中,整个文献共被引网络由345个节点、370条连边组成。其中,每一个圆形节点都表示一篇被引文献,引文年轮表示该篇文献的引文历史,引文年轮的颜色表示相应的引文时间,每一个年轮的厚度与某个时间分区内引文数量成正比。两个节点之间连线的粗细表示节点共被引的次数,线条越粗表示共被引次数越多。其中带有紫红色光圈的节点具有较高的中心性,与其他节点之间的联系也越紧密。
其次,利用聚类算法对数似然比(Log-Likelihood Ratio,以下简称LLR)算法进行文献共被引聚类,其中,聚类指标Modularity Q为0.8639、Mean silhouette为0.4171,聚类结果见图2。
由于聚类指标Modularity Q介于0和1之间,数值越趋向于1,说明模块性越好,聚类内的联系越紧密,聚类间的联系越松散。Mean silhouette的取值介于-1到1之间,值越趋向于1,则聚类主题越明确,聚类内文章内容越相似。由此可见,本文的聚类效果是较好的。
聚类产生15个类别,表示链路预测领域涵盖了15个研究类群,从LLR算法抽词并对每个类进行自动标引的结果来看,见表2。链路预测主要是在生物学、医学、人类学、社会学、网络科学中的研究居多。其中在生物学,主要是研究基因的表达、蛋白质的结构和功能预测;在医学,主要是研究疾病的传播、预测与控制;在人类学中,主要是研究物种的形成、群落的演化;在社会学中,主要是研究社会舆情、突发事件在网络上的传播、预测和控制;在网络科学中,主要是研究复杂网络的结构、性质,以及各种预测算法,主要偏于理论化。 3链路预测的研究热点
研究热点指的是在特定时间段内,相对较多的论文研究的主题呈现出一种集中趋势。本文将从关键词的共现分析来总结出研究热点。CiteSpace的各种参数与分析共被引文献的参数设置相同,热点词汇图谱见图3。网络中共有116个节点,128条连边。
然后选取LLR算法对每个聚类标签进行标引结果产生11个聚类,即表示链路预测领域的11个研究热点(图4),其中,聚类指标Modularity Q为0.8054、Mean silhouette为0.9083,说明聚类效果很好,即类与类之间差别足够大,类内节点足够相似。
由于CiteSpace中对关键词的分析是从原文的题目、摘要、关键词中抽取,而这些词带有作者本身的主观性,聚类标签可能无法精确表达研究热点。因此,在CiteSpace聚类的基础上,对聚类的施引文献和被引文献进行全面分析,本文总结出链路预测领域以下研究热点。
3.1生物网络领域
几十亿年来,生物一直在进化。无论是微观上的一个细胞还是宏观上的一个物种,其内部结构都在不断地发生演化,傳统的关于生物的研究已经是相对比较成熟了,而网络生物学的发展给生物学领域的研究带来了全新的视角,尤其是生物网络中的链路预测研究。例如,利用蛋白质之间的相互作用,预测蛋白质的结构和功能。根据基因的表达来预测人类致病基因等等。这些在现代医学中有很多应用。
3.2社会网络领域
社会网络就是以人或者组织为节点的社会关系网络,如Facebook、Twitter、新浪微博、引文网络等等。近年来,社交网络蓬勃兴起,社交网络上的关注对象、话题推荐或者朋友推荐就是链路预测的一个很好的应用。WANG Peng等人总结出在社会网络中,链路预测研究主要是在社会化推荐、关系预测、网络重构、在学术领域中寻找专家和合作者等方面。
3.3网络理论研究
与网络理论相关的研究就是针对网络的结构、性质和演化机理进行研究。如何利用网络的拓扑结构和节点属性刻画网络,进而更好地对网络的发展趋势进行预测,是目前理论研究的热点。如何处理超规模网络、多层异质网络,如何提高预测精度是目前研究的重点和难点。
4结论
本文利用CiteSpace文献计量工具对链路预测领域的知识结构和研究热点进行分析,研究表明:链路预测的知识结构涵盖了多门学科,研究十分广泛,主要集中于生物网络、社会网络、网络理论研究。
本文的不足之处在于,仅仅只是涵盖了WOS中的SCI数据库中的文献进行分析,忽略了未被收录的而且质量高的文献,在一定程度上影响了分析结果。
参考文献
[1]陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242253.
[2]卫军朝,蔚海燕.基于CiteSpaceⅡ的数字图书馆研究热点分析[J].图书馆杂志,2011,30(4):7077.
[3]Mamitsuka H.Mining from protein–protein interactions[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(5):400410.
[4]Wu X,Jiang R,Zhang M Q,et al.Network‐based global inference of human disease genes[J].Molecular systems biology,2008,4(1):189.
[5]Wang P,Xu B W,Wu Y R,et al.Link prediction in social networks:the state-of-the-art[J].Science China Information Sciences,2015,58(1):138.
[6]吕琳媛,周涛.链路预测[M].北京:高等教育出版社,2013.
关键词:链路预测;知识图谱;CiteSpace
中图分类号:F27
文献标识码:A
doi:10.19311/j.cnki.16723198.2016.17.032
0引言
随着互联网技术的日新月异,各种知识呈现出指数级的爆炸增长趋势,人们对“网络”一词的理解也越来越丰富。起初,人们仅仅认识到计算机组成的万维网网络,后来随着认识的逐渐深入,人们发现生活中无处不存在着网状结构的事物。比如说社交网络的代表之一,新浪微博中的不同用户组成的复杂的人际关系网络,生物领域中的蛋白质分子结构呈现出来的网状结构,学术领域中存在的引文网络等。因此,对网络科学的研究,已成为当下的研究热点。然而,更重要的是,网络是动态变化的,研究各种不同网络的性质及其拓扑结构等相关知识最终是为了了解网络的发展规律,对网络的演化方向和趋势进行预测,也就是进行链路预测,从而更好地应对网络中的突变现象,并将这些知识应用到实际网络中。例如,电子商务网站中的“您可能喜欢的商品”推荐、科技文献下载后的“您可能感兴趣的文献”推荐,Facebook中的关注对象的推荐等等,由此可见,实际生活中无处不在将链路预测的成果进行应用。因而,链路预测俨然成为目前的研究热点和难点。
一般而言,学科领域知识发展脉络由该领域公认的“学术大牛”来完成对该学科知识的综合梳理。通常都是利用过去已有的文献进行人工梳理,很少利用统计工具或者可视化软件完成。本文采用客观计量的方式,以2005年到2015年间,“Web of Science”核心合集收录的与链路预测相关的期刊论文及其参考文献为研究对象,借助陈超美开发的CiteSpace分析软件,通过文献之间存在的引用和被引用的关系进行链路预测领域的知识结构和研究热点的整理和发现,为之后相关领域的深入奠定基础。
1CiteSpace工具介绍及数据采集
CiteSpace是由陈超美博士开发的一款对科学文献进行可视化分析的软件,它能够显示一个学科或只适应于在一定时期发展的趋势和动向,形成若干研究前沿领域的演进历程。它可以分析主流数據库的各种科学文献,并且无需对文献进行繁琐的数据预处理,只需用户进行简单的操作,即可自动生成揭示某学科领域知识结构随着时间的演变趋势,帮助用户迅速发现研究某学科领域的领军人物、相关研究机构和科研人员,还可以帮助用户梳理整个学科领域的知识图谱,以便更全面地认识该学科领域。
考虑到文献的质量,本文的数据源自Web of Science(以下简称WOS)引文索引数据库中的核心合集中的“SCI-EXPANDED”,以“link Prediction”为主题,文献类型选择“Article”,时间跨度从2005年到2015年,语种选择英语,进行检索,总共检索到11995篇文献记录。文献记录下载时间为2016年4月24日。
2链路预测的知识结构分析
由于引用文献与被引用文献的研究内容之间存在着相关性,并且各种参考文献之间同样存在着这种内容研究上的关联,参考文献之间的这种关系会随着被引次数的增加而加强。基于此,建立引文网络即可细分该领域的研究方向,厘清该领域研究的发展脉络,因此网络中被引频次高的文献即可被看作是本领域的知识基础。
本文利用CiteSpace软件对上述从WOS上下载文献记录的相关数据进行分析。其中,时间区间选择2005年到2015年,时间分割默认为为1年,术语来源选择标题、摘要、关键词,属于类型选择burst terms,即频次变化率高的词。在引文数量(C)、共被引频次(CC)和共被引系数(CCV)三个层次上,按前中后三个时区分别设定阈值为(2,2,20),(4,3,20),(4,3,20),其余的由线性内插值来决定。由于文献数量较多,因此需要对复杂的网络进行剪裁,则相关的参数设置为路径寻找、修剪片段网络和合并网络,最终生成静态聚类图,最终以合并网络的形式展示结果。结果如表1所示。
利用CiteSpace绘制出链路预测领域的11995篇文献的共被引分析图谱,结果见图1。
在图1中,整个文献共被引网络由345个节点、370条连边组成。其中,每一个圆形节点都表示一篇被引文献,引文年轮表示该篇文献的引文历史,引文年轮的颜色表示相应的引文时间,每一个年轮的厚度与某个时间分区内引文数量成正比。两个节点之间连线的粗细表示节点共被引的次数,线条越粗表示共被引次数越多。其中带有紫红色光圈的节点具有较高的中心性,与其他节点之间的联系也越紧密。
其次,利用聚类算法对数似然比(Log-Likelihood Ratio,以下简称LLR)算法进行文献共被引聚类,其中,聚类指标Modularity Q为0.8639、Mean silhouette为0.4171,聚类结果见图2。
由于聚类指标Modularity Q介于0和1之间,数值越趋向于1,说明模块性越好,聚类内的联系越紧密,聚类间的联系越松散。Mean silhouette的取值介于-1到1之间,值越趋向于1,则聚类主题越明确,聚类内文章内容越相似。由此可见,本文的聚类效果是较好的。
聚类产生15个类别,表示链路预测领域涵盖了15个研究类群,从LLR算法抽词并对每个类进行自动标引的结果来看,见表2。链路预测主要是在生物学、医学、人类学、社会学、网络科学中的研究居多。其中在生物学,主要是研究基因的表达、蛋白质的结构和功能预测;在医学,主要是研究疾病的传播、预测与控制;在人类学中,主要是研究物种的形成、群落的演化;在社会学中,主要是研究社会舆情、突发事件在网络上的传播、预测和控制;在网络科学中,主要是研究复杂网络的结构、性质,以及各种预测算法,主要偏于理论化。 3链路预测的研究热点
研究热点指的是在特定时间段内,相对较多的论文研究的主题呈现出一种集中趋势。本文将从关键词的共现分析来总结出研究热点。CiteSpace的各种参数与分析共被引文献的参数设置相同,热点词汇图谱见图3。网络中共有116个节点,128条连边。
然后选取LLR算法对每个聚类标签进行标引结果产生11个聚类,即表示链路预测领域的11个研究热点(图4),其中,聚类指标Modularity Q为0.8054、Mean silhouette为0.9083,说明聚类效果很好,即类与类之间差别足够大,类内节点足够相似。
由于CiteSpace中对关键词的分析是从原文的题目、摘要、关键词中抽取,而这些词带有作者本身的主观性,聚类标签可能无法精确表达研究热点。因此,在CiteSpace聚类的基础上,对聚类的施引文献和被引文献进行全面分析,本文总结出链路预测领域以下研究热点。
3.1生物网络领域
几十亿年来,生物一直在进化。无论是微观上的一个细胞还是宏观上的一个物种,其内部结构都在不断地发生演化,傳统的关于生物的研究已经是相对比较成熟了,而网络生物学的发展给生物学领域的研究带来了全新的视角,尤其是生物网络中的链路预测研究。例如,利用蛋白质之间的相互作用,预测蛋白质的结构和功能。根据基因的表达来预测人类致病基因等等。这些在现代医学中有很多应用。
3.2社会网络领域
社会网络就是以人或者组织为节点的社会关系网络,如Facebook、Twitter、新浪微博、引文网络等等。近年来,社交网络蓬勃兴起,社交网络上的关注对象、话题推荐或者朋友推荐就是链路预测的一个很好的应用。WANG Peng等人总结出在社会网络中,链路预测研究主要是在社会化推荐、关系预测、网络重构、在学术领域中寻找专家和合作者等方面。
3.3网络理论研究
与网络理论相关的研究就是针对网络的结构、性质和演化机理进行研究。如何利用网络的拓扑结构和节点属性刻画网络,进而更好地对网络的发展趋势进行预测,是目前理论研究的热点。如何处理超规模网络、多层异质网络,如何提高预测精度是目前研究的重点和难点。
4结论
本文利用CiteSpace文献计量工具对链路预测领域的知识结构和研究热点进行分析,研究表明:链路预测的知识结构涵盖了多门学科,研究十分广泛,主要集中于生物网络、社会网络、网络理论研究。
本文的不足之处在于,仅仅只是涵盖了WOS中的SCI数据库中的文献进行分析,忽略了未被收录的而且质量高的文献,在一定程度上影响了分析结果。
参考文献
[1]陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242253.
[2]卫军朝,蔚海燕.基于CiteSpaceⅡ的数字图书馆研究热点分析[J].图书馆杂志,2011,30(4):7077.
[3]Mamitsuka H.Mining from protein–protein interactions[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(5):400410.
[4]Wu X,Jiang R,Zhang M Q,et al.Network‐based global inference of human disease genes[J].Molecular systems biology,2008,4(1):189.
[5]Wang P,Xu B W,Wu Y R,et al.Link prediction in social networks:the state-of-the-art[J].Science China Information Sciences,2015,58(1):138.
[6]吕琳媛,周涛.链路预测[M].北京:高等教育出版社,2013.