论文部分内容阅读
复杂网络研究作为一个新兴的学科方向,吸引了许多来自不同学科研究人员的广泛关注。社团结构是复杂网络的一个重要特征,刻画了复杂网络中局部内的关系和局部之间的关系,是复杂网络研究的一个新热点。随着人类基因组计划测序工作的完成,以蛋白质组学为研究重点的后基因时代悄然到来,蛋白质组学的研究对象是蛋白质相互作用网络。目前,蛋白质相互作用网络的研究重点是生物模块识别,生物模块可看作是蛋白质相互作用网络中的社团结构。将社团结构发现算法应用到蛋白质相互作用网络识别生物模块,并结合基因本体数据库进行生物学分析,具有重要的理论研究价值和实际应用意义。本文主要研究内容包括:(1)对复杂网络中的基准网络和生物学中的蛋白质相互作用网络数据,进行了关键特征验证与分析。发现两类网络数据基本满足小世界特征,基准网络数据基本不满足无尺度特征,模块度特征较明显。蛋白质相互作用网络具有明显的无尺度特征;(2)研究了几种经典的非重叠社团发现算法:谱方法、k-means算法、GN算法、模块度优化算法和MCODE算法。在蛋白质相互作用网络数据上的应用表明模块度优化算法所得划分结果具有较高生物支持;(3)在重叠社团发现算法方面,重点研究了派系过滤算法和模糊聚类算法,基准网络和蛋白质相互作用网络上的实验结果表明,派系过滤算法在较稀疏的基准网络和蛋白质相互作用网络数据上,节点丢失率较高。模糊聚类算法在基准数据上实验结果较好,但在蛋白质相互作用网络中只能发现少量模块,模块规模跨度较大,降低了在生物学方面的支持作用;(4)基于信息熵概念提出了一个新的社团结构评价指标:熵有效性函数。该指标在社团划分正确性与时间代价方面优于模块度函数。将其与FCM算法相融合,在基准网络数据上的实验结果表明熵有效性函数能够较准确地找到“最佳”聚类数。