论文部分内容阅读
现实世界中大量的复杂系统都可以被抽象为复杂网络,因而对复杂网络的研究极其重要。链路预测作为复杂网络的一个重要研究方向,因其重要的理论研究意义和实际应用价值,近年来受到各个科学领域的研究者们的关注。链路预测主要是指利用网络中已有的节点和连边等信息,来预测网络中未知连边存在的概率。通常,这些尚未连边的节点对包括两种情况:一种是网络中已经存在的但尚未被发现的连边,另一种是网络中还没有出现但是会在未来出现的连边。在过去的几十年间,已经有很多的链路预测算法被提出,其中最简单直接的一类是基于相似性的算法,它赋予每对节点一个相似性分值来评价节点之间存在连边的可能性。这种算法存在的一个关键问题是如何同时充分地利用网络中得到的多种特征信息,而信息论模型可以有效地解决这个问题。本文就是围绕着信息论模型来研究基于相似性的链路预测算法,旨在同时充分有效的利用网络中的多种特征信息来提高算法的准确性。首先,本文将信息论模型进行了一个一般化的扩展,得到了一个一般化的信息论模型,并提出了一个新的相似性指标:邻居集信息分配指标(NSIA)。然后,我们将邻居集信息指标和网络的社区结构信息进行融合得到一个新的融合算法。最后,我们又发现将扰动的思想引入信息论模型可以有效地解决网络中得到的多种特征信息对连边可能性的贡献度问题,并且可以大大的降低预测算法的计算复杂度,因此又提出了基于扰动的链路预测算法。本文的主要工作内容陈述如下:(1)一般化的信息论模型。我们通过进一步区分网络各特征不同特征变量的贡献度,对信息论模型进行了一般化的扩展,得到一个一般化的信息论模型。随后在这个模型中引入了虚拟的“信息分配过程”,提出一个新的相似性指标:邻居集信息分配指标(NSIA)。最后,通过在大规模现实网络和小规模现实网络上的实验,验证了该指标具有更好的预测效果。(2)社区划分和邻居集信息分配指标的融合算法。大多数现实网络中都存在的一个特征就是社区结构。发现网络的社区结构并有效的将其和链路预测算法结合在一起,可以在一定程度上提高链路预测算法的准确性。本文中我们通过社区之间的关联性反映网络的社区结构特性,并将其融合到邻居集信息分配指标中,得到一个新的融合算法指标。在大量现实网络上的实验表明该算法的预测精度确实得到了一定的提高。(3)基于扰动的链路预测算法。通过对网络的结构进行微扰,评估扰动后的网络中各特征对连边预测的影响力,利用该影响力确定各特征的相对贡献度。相对于信息论模型中的局部搜索策略,该算法可以简单有效的得到各网络结构不同特征的贡献度,同时它对每一种网络结构都有一组对应的特征贡献度,考虑了各网络结构本身对网络连边预测的影响,不仅减小了算法的计算复杂度,也提高了算法的预测准确性。在现实网络上的实验结果也证实了这一点。