链路预测的知识结构与研究热点

来源 :现代商贸工业 | 被引量 : 0次 | 上传用户:longman1026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近年来,随着网络科学的迅猛发展,链路预测成为目前的研究热点。因其有着广泛的应用,例如电子商务网站中的商品推荐,Facebook、Twitter等各种社交平台中的好友推荐,以及在生物领域中蛋白质或者是基因的网络机制与功能推测等,如何进行精准的链路预测的问题俨然备受瞩目。为了更加全面而深入地了解链路预测领域,以“Web of Science”核心合集收录的期刊论文及其参考文献为研究对象,利用关键词共现网络、文献共被引网络以及突现词分析,借助CiteSpace软件进行信息可视化,对链路预测的知识结构与研究热点进行了深入分析。
  关键词:链路预测;知识图谱;CiteSpace
  中图分类号:F27
  文献标识码:A
  doi:10.19311/j.cnki.16723198.2016.17.032
  0引言
  随着互联网技术的日新月异,各种知识呈现出指数级的爆炸增长趋势,人们对“网络”一词的理解也越来越丰富。起初,人们仅仅认识到计算机组成的万维网网络,后来随着认识的逐渐深入,人们发现生活中无处不存在着网状结构的事物。比如说社交网络的代表之一,新浪微博中的不同用户组成的复杂的人际关系网络,生物领域中的蛋白质分子结构呈现出来的网状结构,学术领域中存在的引文网络等。因此,对网络科学的研究,已成为当下的研究热点。然而,更重要的是,网络是动态变化的,研究各种不同网络的性质及其拓扑结构等相关知识最终是为了了解网络的发展规律,对网络的演化方向和趋势进行预测,也就是进行链路预测,从而更好地应对网络中的突变现象,并将这些知识应用到实际网络中。例如,电子商务网站中的“您可能喜欢的商品”推荐、科技文献下载后的“您可能感兴趣的文献”推荐,Facebook中的关注对象的推荐等等,由此可见,实际生活中无处不在将链路预测的成果进行应用。因而,链路预测俨然成为目前的研究热点和难点。
  一般而言,学科领域知识发展脉络由该领域公认的“学术大牛”来完成对该学科知识的综合梳理。通常都是利用过去已有的文献进行人工梳理,很少利用统计工具或者可视化软件完成。本文采用客观计量的方式,以2005年到2015年间,“Web of Science”核心合集收录的与链路预测相关的期刊论文及其参考文献为研究对象,借助陈超美开发的CiteSpace分析软件,通过文献之间存在的引用和被引用的关系进行链路预测领域的知识结构和研究热点的整理和发现,为之后相关领域的深入奠定基础。
  1CiteSpace工具介绍及数据采集
  CiteSpace是由陈超美博士开发的一款对科学文献进行可视化分析的软件,它能够显示一个学科或只适应于在一定时期发展的趋势和动向,形成若干研究前沿领域的演进历程。它可以分析主流数據库的各种科学文献,并且无需对文献进行繁琐的数据预处理,只需用户进行简单的操作,即可自动生成揭示某学科领域知识结构随着时间的演变趋势,帮助用户迅速发现研究某学科领域的领军人物、相关研究机构和科研人员,还可以帮助用户梳理整个学科领域的知识图谱,以便更全面地认识该学科领域。
  考虑到文献的质量,本文的数据源自Web of Science(以下简称WOS)引文索引数据库中的核心合集中的“SCI-EXPANDED”,以“link Prediction”为主题,文献类型选择“Article”,时间跨度从2005年到2015年,语种选择英语,进行检索,总共检索到11995篇文献记录。文献记录下载时间为2016年4月24日。
  2链路预测的知识结构分析
  由于引用文献与被引用文献的研究内容之间存在着相关性,并且各种参考文献之间同样存在着这种内容研究上的关联,参考文献之间的这种关系会随着被引次数的增加而加强。基于此,建立引文网络即可细分该领域的研究方向,厘清该领域研究的发展脉络,因此网络中被引频次高的文献即可被看作是本领域的知识基础。
  本文利用CiteSpace软件对上述从WOS上下载文献记录的相关数据进行分析。其中,时间区间选择2005年到2015年,时间分割默认为为1年,术语来源选择标题、摘要、关键词,属于类型选择burst terms,即频次变化率高的词。在引文数量(C)、共被引频次(CC)和共被引系数(CCV)三个层次上,按前中后三个时区分别设定阈值为(2,2,20),(4,3,20),(4,3,20),其余的由线性内插值来决定。由于文献数量较多,因此需要对复杂的网络进行剪裁,则相关的参数设置为路径寻找、修剪片段网络和合并网络,最终生成静态聚类图,最终以合并网络的形式展示结果。结果如表1所示。
  利用CiteSpace绘制出链路预测领域的11995篇文献的共被引分析图谱,结果见图1。
  在图1中,整个文献共被引网络由345个节点、370条连边组成。其中,每一个圆形节点都表示一篇被引文献,引文年轮表示该篇文献的引文历史,引文年轮的颜色表示相应的引文时间,每一个年轮的厚度与某个时间分区内引文数量成正比。两个节点之间连线的粗细表示节点共被引的次数,线条越粗表示共被引次数越多。其中带有紫红色光圈的节点具有较高的中心性,与其他节点之间的联系也越紧密。
  其次,利用聚类算法对数似然比(Log-Likelihood Ratio,以下简称LLR)算法进行文献共被引聚类,其中,聚类指标Modularity Q为0.8639、Mean silhouette为0.4171,聚类结果见图2。
  由于聚类指标Modularity Q介于0和1之间,数值越趋向于1,说明模块性越好,聚类内的联系越紧密,聚类间的联系越松散。Mean silhouette的取值介于-1到1之间,值越趋向于1,则聚类主题越明确,聚类内文章内容越相似。由此可见,本文的聚类效果是较好的。
  聚类产生15个类别,表示链路预测领域涵盖了15个研究类群,从LLR算法抽词并对每个类进行自动标引的结果来看,见表2。链路预测主要是在生物学、医学、人类学、社会学、网络科学中的研究居多。其中在生物学,主要是研究基因的表达、蛋白质的结构和功能预测;在医学,主要是研究疾病的传播、预测与控制;在人类学中,主要是研究物种的形成、群落的演化;在社会学中,主要是研究社会舆情、突发事件在网络上的传播、预测和控制;在网络科学中,主要是研究复杂网络的结构、性质,以及各种预测算法,主要偏于理论化。   3链路预测的研究热点
  研究热点指的是在特定时间段内,相对较多的论文研究的主题呈现出一种集中趋势。本文将从关键词的共现分析来总结出研究热点。CiteSpace的各种参数与分析共被引文献的参数设置相同,热点词汇图谱见图3。网络中共有116个节点,128条连边。
  然后选取LLR算法对每个聚类标签进行标引结果产生11个聚类,即表示链路预测领域的11个研究热点(图4),其中,聚类指标Modularity Q为0.8054、Mean silhouette为0.9083,说明聚类效果很好,即类与类之间差别足够大,类内节点足够相似。
  由于CiteSpace中对关键词的分析是从原文的题目、摘要、关键词中抽取,而这些词带有作者本身的主观性,聚类标签可能无法精确表达研究热点。因此,在CiteSpace聚类的基础上,对聚类的施引文献和被引文献进行全面分析,本文总结出链路预测领域以下研究热点。
  3.1生物网络领域
  几十亿年来,生物一直在进化。无论是微观上的一个细胞还是宏观上的一个物种,其内部结构都在不断地发生演化,傳统的关于生物的研究已经是相对比较成熟了,而网络生物学的发展给生物学领域的研究带来了全新的视角,尤其是生物网络中的链路预测研究。例如,利用蛋白质之间的相互作用,预测蛋白质的结构和功能。根据基因的表达来预测人类致病基因等等。这些在现代医学中有很多应用。
  3.2社会网络领域
  社会网络就是以人或者组织为节点的社会关系网络,如Facebook、Twitter、新浪微博、引文网络等等。近年来,社交网络蓬勃兴起,社交网络上的关注对象、话题推荐或者朋友推荐就是链路预测的一个很好的应用。WANG Peng等人总结出在社会网络中,链路预测研究主要是在社会化推荐、关系预测、网络重构、在学术领域中寻找专家和合作者等方面。
  3.3网络理论研究
  与网络理论相关的研究就是针对网络的结构、性质和演化机理进行研究。如何利用网络的拓扑结构和节点属性刻画网络,进而更好地对网络的发展趋势进行预测,是目前理论研究的热点。如何处理超规模网络、多层异质网络,如何提高预测精度是目前研究的重点和难点。
  4结论
  本文利用CiteSpace文献计量工具对链路预测领域的知识结构和研究热点进行分析,研究表明:链路预测的知识结构涵盖了多门学科,研究十分广泛,主要集中于生物网络、社会网络、网络理论研究。
  本文的不足之处在于,仅仅只是涵盖了WOS中的SCI数据库中的文献进行分析,忽略了未被收录的而且质量高的文献,在一定程度上影响了分析结果。
  参考文献
  [1]陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242253.
  [2]卫军朝,蔚海燕.基于CiteSpaceⅡ的数字图书馆研究热点分析[J].图书馆杂志,2011,30(4):7077.
  [3]Mamitsuka H.Mining from protein–protein interactions[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(5):400410.
  [4]Wu X,Jiang R,Zhang M Q,et al.Network‐based global inference of human disease genes[J].Molecular systems biology,2008,4(1):189.
  [5]Wang P,Xu B W,Wu Y R,et al.Link prediction in social networks:the state-of-the-art[J].Science China Information Sciences,2015,58(1):138.
  [6]吕琳媛,周涛.链路预测[M].北京:高等教育出版社,2013.
其他文献
摘 要:新会计制度实行后,有效提升了高校的管理质量。相对于传统会计制度,新会计制度能对于高校的资产计算的更为清楚,能更好的评估高校资产的价值;让账目更加的清晰,也与实际情况更为符合;账户的设立也更具备科学性,大大提升了会计核算工作的效率。新会计制度与“营改增”制度实行后,高校的会计核算工作在适应的过程中难免会出现一些问题。为此,主要就其中的问题进行讨论,并探究出有效的解决方法。  关键词:新会计制
期刊
摘要:[目的]调查浅谈大学生经营者对电子营销模式的态度及其适宜的营销手段。[方法]通过发放550份问卷采用随机调查的形式,调查大学生在电子商务网站上销售特产的认可度及消费者对于网购特产的偏好情况。[结果]大部分受访大学生愿意在助学公益电子商务网站上售卖特产,大学生更倾向于低门槛创业。  关键词:电子商务;大学生;特产;网购  中图分类号:F49  文献标识码:A  doi:10.19311/j.c
期刊
摘 要:为了全面了解湖北省新型农民创业培训效果,以培训学员心理感受为突破口,结合相关理论与实践构建了一套新型农民创业培训满意度评价的指标体系,并引入AHP—GEM赋权法来核算评价指标权重。通过对湖北省宜昌市与荆州市两地的384位培训学员进行问卷调查,发现湖北省农民创业培训总体满意度到达了0.796的较高水平,且从2008到2013年形成了一个先下降后回升的过程。具体说来,呈现出平原区优于山区,男性
期刊
摘 要:中国的“一国两制”制度具有极其鲜明的社会主义独特性以及中国社会背景的相符性。它既不同于对于国内其他地区的自治制度,也不同于国外的联邦制度。“一国两制”制度在香港、澳门特别行政区的运行已经充分体现了它的正确性。通过分析“一国两制”制度在香港、澳门的应用,探讨其包含的复合性,从而进一步讨论预测其在台湾问题上试用的可能。  关键词:中国政治制度;复合性;一国两制  中图分类号:D9  文献标识码
期刊
摘要:现实世界的物流效率永远都不可能赶上虚拟世界的速率,互联网的疯狂和物流成本优势有着难以割舍的关系,因此,让现实世界的物流效率提升到一个新的层次,带来的不仅是自身商业价值的提升,更是一个企业全方面的提升。据此,以经济学为立足点,分析永辉超市物流系统目前存在的主要问题,剖析其成因。通过综合分析,全面评价和协调,提出各种可行的对策措施,以帮助经营者提高对物流系统的认识,辅助经营者选择恰当的决策方案,
期刊
摘要:随着“互联网+”上升到国家战略层次,餐饮行业的经营创新和营销环境发生了巨大转变,同时消费者的消费心理和行为也发生了巨大的变化。在这种背景下,结合对江苏苏南五市中小型餐饮企业的调查,分析苏南地区小型餐饮企业O2O的现状,同时提出小型餐饮企业在开展互联网+过程中的建议,希望能够对行业开展“互联网+”提供参考。  关键词:江苏苏南;餐饮企业;互联网+;O2O  中图分类号:F27  文献标识码:A
期刊
摘要:跨境电商是一种新型贸易方式,是未来跨境贸易的主要发展方向之一,具有广阔的市场空间和良好的发展前景。为此,对金华跨境电商的发展现状、制约因素作全面的调研与分析,进而提出加快金华跨境电商发展的对策。  关键词:金华;跨境电商;发展现状;对策  中图分类号:F74  文献标识码:A  doi:10.19311/j.cnki.16723198.2016.17.019  0引言  跨境电商是指分属不同
期刊
摘要:随着中国产业转型升级工作的不断深入以及苏南自主创新示范区的建立,江苏省的整体产业转型升级工作进入了一个新的阶段,镇江作为承接苏南核心地区与长三角腹地地区的枢纽城市,其产业转型升级工作的顺利与否直接影响着江苏省整体产业转型工作的有序推进,因此有必要对镇江市现有产业状况进行梳理,并针对产业转型升级的核心内容——“企业创新”展开研究。在这种宏观背景之下,将镇江市较为丰富的侨务资源纳入到镇江市产业转
期刊
摘要:对企业的财务绩效进行客观、真实的评价可以帮助经营者认清企业在行业中的位置,发现企业的优势与不足。传统的财务绩效评价方法由于在确定权重的环节大多采用主观赋值的方法,对结果的可靠性有明显的消极影响。因此,为使评价结果更加客观、真实,采用不受主观因素干扰的熵权法来确定旅游上市公司财务绩效的指标权重,再结合改进的TOPSIS评价模型呈现出9家景区类上市公司整体经营情况,并根据评价结果对这9家上市公司
期刊
摘要:随着高校校园快递需求增长,快递公司的分散经营,缺乏统一的管理和监督机制,严重阻碍了校园快递健康有序发展。以江苏大学为例,采取问卷调查和实地调查的方法,归纳提炼出校园快递服务存在的问题,并提出了需要通过设置校园快递代理点,达到完善服务,有效监督和管理控制优化。  关键词:校园快递;快递服务管理;信度效度;对策  中图分类号:F25  文献标识码:A  doi:10.19311/j.cnki.1
期刊