论文部分内容阅读
复杂网络广泛存在于社会生活的各个方面,其特点是模块内部节点之间的连边具有较高的密度,而模块间节点的连边则表现出连接的低密度性。复杂网络模型的研究已逐渐从原始的数据统计模式演变为一种科学的研究方法,成为众多交叉学科和行业的研究热点课题之一,并引发了国内外众多学者和专家的密切关注。社区作为从中观视角去描述复杂网络的一项重要指标,正逐渐成为复杂网络研究前沿中的基础性问题之一。社区结构是存在于复杂网络中的一个普遍现象。例如建立在强关系网络Facebook上的朋友圈社区,可有效地改善和促进个体间的亲密关系;通过弱关系网络Twitter所形成的信息传播社区,则有益于商业广告的投递和推广。社区发现不仅能探索网络中的潜在结构,深入发掘隐藏在网络内部的信息,检测出网络中的拓扑结构变化,还能揭示出网络的内在固有规律,跟踪网络结构的动态演变,预测网络的发展趋势,对于深入理解和掌握复杂网络结构的基本特征具有十分重要的意义。本文在分析了相关工作的基础上,围绕复杂网络的时间邻域特征、节点自身属性、动态扩散过程以及重叠现象等方面展开了研究,主要研究内容及贡献如下:(1)提出一种基于节点时间局部性原理的社区结构动态发现算法。许多传统的复杂网络社区发现算法将网络的全局属性看作是固定的,但随着时间的不断发展,来自网络内部或外部的各种可预测或不可预测的因素将导致网络的结构和性质发生不同程度的变化。受计算机操作系统中程序执行过程中的时空局部理论启发,本文创新性的将时间的局部性访问原理首次引入到复杂网络的社区发现中来,即一个社区在某个时间点接受一个节点作为其成员节点,那么在相邻的时间间隔邻域内,更多的后续节点将首先访问该社区,而不是其它的社区,用以解决网络结构的动态扩展问题。通过基准网络测试与分析,验证了本文所提出的社区发现算法能够较为高效和精确地检测出具有变化特征的网络社区结构。(2)提出一种基于节点不同邻居权值影响因子的并行启发式社区发现算法。复杂网络的拓扑属性通常决定着社区的内部结构,而节点本身的内在属性在社区划分的局部微调中起着十分重要的作用,但大多数社区发现算法并没有充分考虑到这一特征。因此,本文设计了一种二次决策规则来检测节点的相似性,即在计算相邻节点之间的相互影响时,根据不同的节点邻居类型,重新定义了一个节点相似度的判定准则来计算不同类型的且拥有共同邻居节点的相邻节点的网络权重。在此基础上,引入具有极小冲突概率的哈希表,用以存储和检索节点的三元组信息。通过不同算法实验性能对比测试,解决了大型网络中的社区预测精确度问题,并大幅降低了计算的时间复杂性。(3)提出一种基于动态扩散过程的多尺度临时性局部平衡策略社区发现算法。鉴于网络内在的动态变化特性,网络的结构在不同的时间检测尺度下会表现出不一样的局部或全局特征。针对该问题,本文通过研究发现,网络在动态扩散过程中存在短时性的局部稳定状态,它不会立即衰减到下一个后继的局部状态,而是会出现间歇性的停滞。这个现象与网络中的社区结构有着密切的关系,即这种结构的变化决定了不同时间尺度下的社区划分。经实验证明,采用这种临时性局部平衡策略确实可以获得一个相对稳定的局部非衰减区域,从而可用于检测网络中的社区结构。此外,由于该策略建立在动态扩散过程的多尺度社区状态检测的基础之上,故可有效地解决模块度最大化过程中存在的分辨率极限问题。(4)提出一种基于网络中节点影响力的重叠社区发现算法。在具有异构型特征的复杂网络结构中(此处主要指网络节点的度呈现幂律分布特征),大多数节点的边连接相对较少,而只有极少数节点拥有数量较大的节点度分布。此类数量相对较少的节点在网络中具有优先连接的特点,这就不可避免地存在一些网络节点同时属于多个社区,从而导致社区重叠问题的发生。因此,本文提出了一类网络概率预测模型用于捕捉这种节点的影响力,它通过构造后验的社区强度和节点影响力概率模型来推导出符合客观事实的社区划分。在此基础上,还引入了一种新的基于平均域家族变量的非共轭随机变分推理规则,用来从数学层面对所提出的概率预测模型进行严格地推导和论证,解决了社区发现过程中对所提出的算法模型到应用实践的转化。通过对网络数据样本进行灵活子采样,也进一步降低了在处理大规模网络时所需的计算复杂度。