论文部分内容阅读
复杂网络是对高度复杂系统的一种抽象,在现实生活中随处可见,例如社交网络、蛋白质相互作用网络、疾病传播网络等。在当今的大数据时代,对复杂网络的研究已成为研究热点之一。社团结构是复杂网络中一种自然存在的基础结构,对应于真实复杂网络中不同功能或不同结构的单元。发现复杂网络中的社团结构对于分析它的拓扑结构、理解其功能和寻找其潜在的性质具有重要意义。现在虽然有些算法如CPM,LINK算法等,可以在一定程度上发现好的社团结构,但是由于复杂网络具有数据量大、结构复杂、噪声多等特点,因此,在发现重叠社团、噪声处理、准确度、速度等方面还需要做大量的研究工作。发现社团结构的方法有很多,如数据挖掘、矩阵分解等。而聚类是社团发现中最常用的一种方法,同理,本文将聚类的思想应用到复杂网络中社团结构发现上。发现重叠社团、噪声处理是复杂网络研究中非常复杂的问题。现有算法普遍存在过度重叠、数据可靠性差等缺点,针对过度重叠问题,本文提出了发现重叠社团的LINKw算法,基于复杂网络动态特性提出了用于噪声处理的MG算法,主要贡献如下:1.重叠社团发现。现有的重叠社团发现算法,大多存在过度重叠、不合理划分等问题,本文基于加权边相似度提出了重叠社团发现算法(LINKw),该算法先将原始网络图转化成对应边图,然后采用余弦相似度的方法对其进行相似度计算,依次合并相似度大的节点(即网络图中的边),从而找到重叠社团结构,并提出了一种依靠互作系数和密度来评估社团结构的质量函数。通过实验对比发现,本文所提算法能较好地解决由弱连接引起的社团过度重叠问题。2.噪声处理。蛋白质相互作用网络是一种典型的复杂网络。该网络中存在大量噪声数据。现有处理噪声的算法普遍存在花费高、费时多等特点。根据复杂网络的动态特性,处理噪声问题是当前研究热点之一。本文基于蛋白质相互作用网络的动态特性,使用一种宽进严出的框架模型,融合模块度函数和基因本体GO注释短语信息提出了一种MG算法,对噪声数据进行了过滤。测试表明,MG算法能较好地处理噪声数据。