论文部分内容阅读
真实复杂网络中存在的异构性导致各个节点在结构和功能上扮演着截然不同的角色。因此,挖掘复杂网络中的关键节点显得至关重要,并且越来越受到网络科学和计算机科学等学科的广泛关注。挖掘网络中的关键节点有助于我们控制流行病的爆发,为电子商务产品精准投放广告,预测科学出版物的受欢迎程度,等等。从网络传播动力学的角度来看,关键节点也被称为最有影响力的传播源,能够最大范围地将疾病、信息等传播至整个网络。根据网络的拓扑结构信息挖掘关键节点是常用的方法之一。本文从网络的全局属性、局部属性和全局-局部属性三个角度出发,结合传播动力学,针对真实复杂网络中关键节点的挖掘算法展开研究,主要工作包括:(1)基于网络全局属性的中心性算法常被用于挖掘网络中的关键节点,然而,这些在特定条件下提出的算法容易忽略邻居节点属性带来的影响。通过融合邻居节点的属性信息,本文提出了一种基于迭代资源分配(Iterative Resource Allocation,IRA)的关键节点挖掘算法。在这个过程中,节点的资源是根据邻居的属性而分配得到的。在一定的迭代次数后,每个节点上的资源量趋于稳定,利用节点的最终资源对关键节点进行排序。IRA算法需要其他算法作为输入,例如度中心性算法、接近中心性算法等。实验结果表明,IRA算法对输入算法起到加强效应,可以大幅提升输入算法的准确性。而且,进一步的研究表明节点传播影响力的大小还受到邻居节点感染状态的影响。鉴于此,本文提出了基于节点传播属性的迭代资源分配改进算法(Improved Iterative Resource Allocation,IIRA)。IIRA算法同原来的IRA算法相比,关键节点挖掘的准确性得到进一步的提升。另外,资源分配的思想不仅适用于无向网络,也适用于有向网络。由此,本文在迭代资源分配的基础上提出了一种改进的PageRank算法(Iterative PageRank Resource Allocation,IPRA),用于有向网络中的关键节点挖掘。同原始的PageRank算法相比,IPRA算法的准确性得到了显著提升。(2)经典的特征向量中心性算法认为节点在网络中的关键性程度不仅取决于邻居节点的数目,还取决于邻居节点的影响力。也就是说,一个节点的影响力是所有与其相连节点的影响力的线性叠加。然而,这忽略了不同节点之间局部结构的异同性。基于这个观点,本文提出了基于局部结构差异性和相似性的特征中心性算法(Eigen-Centrality based on the Differences and Similarities,ECDS)。ECDS算法中的差异性和相似性取决于两个任意节点之间的Jaccard相似性,该算法本质上可以被描述成特征值问题。ECDS算法中差异性与相似性之间的权重比例由一个可调参数来控制。通过在4个真实网络中的实验得出,ECDS算法的准确性在取得最优值时要明显优于对比算法。(3)现有的关键节点挖掘算法主要是从网络的局部属性或者全局属性等方面单独考虑的,而节点的传播影响力是受到全局属性和局部属性共同影响的。删除网络中的某个节点后,剩余网络与原始网络之间存在疾病爆发阈值差,这个阈值差可以表征被删除节点在网络中的全局属性。节点的度信息则可以表征节点在网络中的局部属性。另外,通过消息传递理论我们可以获得网络更为精确的易染态-已染态-感染态(SIR)模型爆发阈值。鉴于此,本文提出了基于全局-局部属性的综合影响力算法(Comprehensive Influence,CI)。CI算法中全局属性和局部属性的权重比例由一个可调参数进行调节。通过在9个真实网络中的实验得出,CI算法的准确性在获得最优值时参数都集中在某个固定值的附近,且CI算法的准确性明显优于对比算法。这说明CI算法具有普适性,可应用于不同结构的真实网络进行关键节点的挖掘。