论文部分内容阅读
在真实世界中,许多复杂系统都能够以复杂网络的形式表示出来,如社会网络、软件网络、生物网络等。目前,针对复杂网络的研究已成为计算机科学、社会学、物理学和生物信息学等领域的研究热点,并成为重要的多学科交叉研究领域。经研究表明,复杂网络中通常存在“社区结构”这一重要的网络拓扑结构特性,它具有社区内部节点连接紧密,社区间节点连接松散的特点。复杂网络社区识别旨在揭示出网络中真实存在的社区结构,其对于分析网络拓扑结构特性、发现网络中的隐含规律及掌握网络的演变过程具有重要的理论意义与实际意义。近年来,研究者们提出了大量优秀的复杂网络社区识别方法,并被应用于现实生活中的多个领域,但是,现有的社区识别算法也依然存在识别社区准确率较低的缺陷,有待进一步改进与提高。因此,本文针对传统社区识别方法存在的不足,将从四个方面开展研究。首先,针对传统基于遗传算法的社区识别方法在识别社区的过程中,存在较强随机性以及寻优能力较弱的缺陷,提出基于局部优化与改进遗传算法的复杂网络社区识别方法IGALO。该方法首先选取模块度函数作为目标函数,并采用一次迭代的标签传播方法初始化种群,以获得具有一定精度的原始种群;然后,给出防破坏单路交叉策略以保证交叉操作是沿着使社区结构向模块度函数增加的方向发展;最终,在既考虑节点与社区内部连接相似度,又考虑节点本身与社区连接紧密度的基础上,提出了节点局部优化变异策略以提高算法的搜索效率。该方法有效克服了传统算法存在寻优能力较弱的缺陷,提高了社区识别精度。在基准网络与真实网络数据集上进行测试,并与多个经典算法进行对比分析,实验结果验证了算法IGALO是有效的和可行的。其次,针对多目标社区识别算法所产生的Pareto最优解集容易陷入局部最优以及多样性不强的缺陷,提出基于多样性进化与NSGAⅡ的多目标复杂网络社区识别方法Ⅰ-NSGAⅡ。该算法同时优化评价社区内部连接紧密性及评价社区外部连接松散性的两个相互冲突的目标函数进行综合寻优,并提出多样性进化策略促使算法扩大搜索空间,以避免获得的Pareto最优解集陷入局部最优。此外,Ⅰ-NSGAⅡ采用邻接基因位编码策略、统一标签策略、单路交叉策略及局部变异策略提高算法的寻优能力。通过在基准网络和真实网络数据集上进行测试,并与多个经典算法进行比较,验证了 Ⅰ-NSGAⅡ算法的有效性和可行性。再次,针对传统基于标签传播的重叠社区识别方法存在较强的随机性,以及需要预设相关阈值来辅助完成社区识别等缺陷,提出基于多核心标签传播的重叠社区识别方法OMKLP。该方法在分析节点度与局部覆盖密度的基础上给出了核心节点评价值的概念,并提出了局部核心节点识别方法,在找到核心节点后,将核心节点的邻居节点标签赋值为与核心节点相同的标签,以便在标签传播的过程中,在局部范围内获得标签数量优势,从而降低随机成分;然后,提出面向重叠社区的异步标签传播策略进行标签传播,该策略可以将社区内部节点与社区边界节点快速区分,以获得重叠社区结构;最后,采用重叠节点分析方法对重叠节点进行分析整理。该算法无需预先设置任何阈值参数,便能够准确识别出重叠社区结构,有效解决了传统标签传播算法所存在的缺陷。在基准网络和真实网络上进行测试,实验结果验证了 OMKLP算法的有效性和可行性。最后,利用边社区识别方法在高度重叠网络中识别社区的优势,从边的局部视角出发,分析每条边与其邻居边的关系,提出用来评估每条边归属社区的边归属密度函数及边归属倾向性函数,并在此基础上设计一种基于边标签传播的重叠社区识别方法OLLP。该方法首先将网络中每条边的标签初始为该边连接两个节点中度高的节点标签;然后通过分析边的归属密度与归属倾向性迭代更新边标签;最终标签相同的边属于同一社区,相应的重叠节点将被自然呈现。在基准网络与真实网络数据集上进行测试,实验结果验证了 OLLP算法的有效性和可行性。