基于最少中心节点覆盖的社区发现方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:xiaohan52132500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:复杂网络社区发现目前已成为计算机科学、生物学、社会学等多个领域研究热点之一。为快速准确地发现大规模网络中社区结构,该文提出一种基于中心节点覆盖的社区发现算法。算法以拥有最多邻居节点的中心节点开始,依次找到能覆盖整个网络节点的最少中心节点,然后以这些中心节点作为小社区,计算相交小社区间合并度量分值,每次合并两个具有最大合并度量分值的小社区,并以模块性Q值作为全局最优合并序列评价函数,全局最大Q的合并序列,即为最优社区划分结构。实验结果表明,算法对网络社区结构划分的时间复杂度为nlogn(n为网络节点数目)并具有较高准确率。
  关键词:社区发现;中心节点;社区合并度量
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)04-0019-04
  Abstract: Complex network community discovery has become one of the hot issues in many fields, including computer science, biology, sociology, etc. In order to quickly and accurately find the community structure of large-scale network, this paper presents a discovery algorithm based on center node whose neighbors node can cover the whole network . The algorithm starts with the most central node whose neighbor nodes can cover entire network then define them as initial small communities, then calculate the combining measure scores between these cross communities pair, each time we will merge a pair of cross communities which get the most combining measure score, and modularity Q value as a global optimal evaluation function for the merge sequence, one merge sequence which achieve maximum Q is the optimal community structure partition of the network. As described, the algorithm can even divided into a dense network into communities with approximately linear time complexity .Applying the algorithm on several typical community social networks shows that the algorithm is of great accuracy and low time complexity.
  Key words: community detect; core nodes; community combining measure
  1 概述
  现实世界中许多复杂系统都可以被直接或转化为复杂网络表示。复杂网络一般存在一些统计特性,如“无标度”[1],“小世界效应”[2],“社区结构特性”[3]。现在,复杂网络中社区结构发现已经成为计算机科学、生物学、物理学、社会学等领域研究热点之一。例如生物学中蛋白质网络里同一社区内蛋白质往往具有相同功能,社会网络中同一社区范围内的所有个体具有相同行为特征,万维网网络中同一社区内网页属于同一主题或同一关键词相关等。复杂网络社区发现目的就是探测并展示这些复杂网络中固有的社区结构。
  自复杂网络中社区发现问题提出至今,各领域学者专家已经提出多种发现算法。2004年Girvan和Newman提出了一个用于刻画网络社区结构优劣的量化标准模块性函数Q[4],并启发其他学者提出基于模块性函数Q的一系列新算法[5-8],但是该系列算法过程复杂,时间复杂度也较高;2007年Raghavan U N等针对大规模社交网络提出了标签传播算法(LPA)[9],该算法可以在5步之内使得95%以上节点标签达到稳定状态并且适用于超大规模网络,后续有Leung[10],Barber[11],liu[12]等对标签传播进行一系列优化和扩展,但LPA算法的弱点是容易陷入局部最优解同时最终结果对节点更新顺序敏感,算法的准确率有待提升;而国内近年的研究如刘大有[13],何东晓[14]等主要集中在运用蚁群算法和遗传算法结合马尔科夫随机游走或模块性函数Q来产生网络社区结构划分。
  本文提出一种基于中心节点覆盖的社区发现算法。算法以拥有最多邻居节点的中心节点开始,依次找到能覆盖整个网络节点的最少中心节点,然后以这些中心节点作为小社区,计算相交小社区间合并度量分值,每次合并两个具有最大合并度量分值的小社区,并以模块性Q值作为全局最优合并序序列评价函数,全局最大Q的合并序列即为最优社区划分结构。
  4 结论及展望
  本算法思路简洁,不同于Vincent D Blondel等[16]提出了以多步骤计算Q值作为起始和最终划分凭据方法,提出基于拥有最多邻居节点的初始中心方法,创新性地定义了社区合并置信度度量方法,最后以模块性函数均值Q作为优化函数获取最优划分结果。不仅在小规模网络中划分准确,而且由于算法时间复杂度低可以适用于大规模网络数据。   1) 在小规模网络中划分结果准确。如在空手道网络中的社区结构划分完全正确,在海豚网络社区结构划分只误划分了两个节点。
  2) 在大规模网络中应用。算法最耗时间步骤仅仅在于起始时按照节点邻居数量排序,且时间复杂度为O(nlogn),其他步骤均为线性时间复杂度,第二步直接大幅度缩减了计算量。这使得算法具有应用在大规模网络中的可行性。
  3) 存在的问题。本算法在两个小数据集空手道数据和海豚网络数据集中并没有以取模块性函数Q,而是取其均值作为目标优化函数,得到较为准确地划分结果,与目前大部分论文不同。而在大网络数据集如科学家协作网络中直接以模块性函数Q作为评价函数,此时我们发现网络中社区数量较大时,模块性函数Q≈1,这也即模块性函数Q的分辨率极限问题[17]。
  4) 展望。从算法流程可以看出,算法第三步小社区之间存在交集,本算法在处理时需要对交叉节点进行二次划分,这在一定程度上增加了算法的时间消耗,同时也给其创造了另外一种可能,也即划分重叠社区的可能。今后将继续改进算法并根据网络规模确定划分网络社区结构的时使用平均模块性函数Q’与直接模块性函数Q,同时尝试将改进算法使其能够运用在重叠社区发现研究中。
  参考文献:
  [1] Barabási A-L,Albert R.Emergence of scaling in random networks[J].Science,1999, 286(5439): 509-512.
  [2] Watts D J,Strogatz S H.Collective dynamics of small-world networks[J]. Nature, 1998, 393(6638): 440-442.
  [3] Girvan M,Newman M E J.Community structure in social and biological networks[J]. Proceedings of National Academy ofScience,2002,9(12):7821-7826.
  [4] Newman M E J,Girvan M.Finding and evaluating community structure in networks[J]. Physical Review E,2004,69(2): 026113.
  [5] Newman M E J. Fast algorithm for detecting community structure in networks[J].Physical Review E, 2004, 69(6): 066133.
  [6] Guimera R,Amaral L A N.Functional cartography of complex metabolic networks[J].Nature, 2005, 433(7028): 895-900.
  [7] Newman M E J. Modularity and community structure in networks[J]. Proceedings of National Academy of Science, 2006,103(23): 8577-8582.
  [8] 金弟,刘大有,杨博,等.基于局部探测的快速复杂网络聚类算法[J].电子学报,2011, 39(11):2540-2546.
  [9] Raghavan U N,Albert R,Kumara S.Near linear-time algorithm to detect community structures in large-scale networks[J].Physical Review E, 2007,76(3): 036106.
  [10] Leung I X Y,Hui P,Li`o P,et al.Towards real time community detection in large networks[J].Physical Review E,2009,79(6):066107.
  [11] Barber M J, Clark J W. Detecting network communities by propagating labels under constraints[J]. Physical Review E, 2009,80(2):026129.
  [12] 金弟,杨博,刘杰,等.复杂网络簇结构探测—基于随机游走的蚁群算法[J].软件学报,2012, 23(3):451-464.
  [13] 何东晓,周栩,王佐,等.复杂网络社区挖掘——基于聚类融合的遗传算法[J].自动化学报, 2010,36(8): 1160-1170.
  [14] Zachary W W.An information flow model for conflict andfission in small groups[J].Journal of Anthropological Research, 1977, 33(4):452-473.
  [15] Lusseau D.The emergent properties of a dolphin social network. Proceedings of the Royal Society B: Biological Sciences, 2003,270(Supplement 2): S186?S188.
  [16] Blondel V D,Guillaume J L,Lambiotte R,et al.Fast unfolding of communities in large networks[J]. Journal of StatisticalMechanics:Theory and Experiment,2008.
  [17] Fortunato S, Barthélemy M. Resolution limit in community detection[J]. Proceedings of National Academy of Science, 2007,104(1):36-41.
其他文献
摘要:该文通过对高职院校计算机基础课程的教学现状和学生特点进行深入分析,认为计算机基础课程的教学目标不仅是掌握计算机基础知识,更重要的是以课程教学内容为载体,培养学生解决问题的能力和方法。因此文章从高职院校计算机基础的教学目标出发,分别在人格特征、知识能力和计算思维的培养等三个方面对计算机基础课程的教学模式进行重构,以期保证教学质量、践行以人才培养为中心的教育理念。  关键词:高职;计算机基础;教
针对新时代下云计算课程体系建设的问题和卓越工程师人才培养计划的特点,提出了应用型本科中云计算课程体系建设和教学方法的改进,实践中取得了不错的成绩。
针对空心铆钉机加工工艺落后、生产效率低、材料利用率不高、切断后两端毛刺大而必须增加去毛刺工序等问题。介绍了一种采用冲压切断模具制作空心铆钉的方法。此工艺的关键是
运用文献资料、比赛临场统计方法,分析我国男排优秀自由防守队员的身高、接发球、防守效果、接球比重.结果表明:身高适合于自由防守队员的专位特点和要求;接发球能力和稳定性
随着学生资料逐步电子化,班主任在整理资料中都会遇到很多头痛问题,填写学生信息表时经常出现错误,如身份证输入错误、出生日期与身份证不符、计算学生年龄不准确、户籍性质
分析了筒形件成形的工艺特点,采用有限元分析软件对其压型、冲孔、拔伸成形过程进行了数值模拟。以坯料加热温度、压型与冲孔冲头工作速度、拔伸滑块工作速度、冲孔毛坯外径
采用台阶实验法,测试大负荷运动状态下男运动员的心率、肺活量、闪烁频率、平衡能力等生理、心理指标.结果表明:40 cm高、每min上下40次台阶实验中,被试心率均可达180 bs/min
当前电子商务正在对传统超市产生着不可忽视的影响,较于电子商务,传统超市的主要劣势在于查找商品和结账过程耗时过长。本设计在超市商品入库时为每一件商品贴上RFID标签,通
摘要:该文以Sn-10%Sb合金为研究对象,通过对浇注温度的控制,观察比较不同过热度下试样的金相组织,总结出不同热历史不同温度梯度对Sn-Sb合金定向凝固行为影响的一般规律。试验结果表明:本文设计的凝固装置是能够制备出定向组织十分显著的Sn-Sb合金。温度梯度是定向凝固的保证,Sn-10%Sb合金熔体在坩埚中凝固时,组织由等轴晶的Sn和块状SnSb化合物组成;同一种成分的Sn-Sb合金过热度增大,
目的:研究辅助性牙周维护治疗对正畸矫治患者口腔唾液中一氧化氮(NO)含量的影响,探讨正畸矫治和牙周维护治疗与唾液NO的关系。方法:应用荧光分光光度法,通过检测正畸矫治患者口腔唾液中