论文部分内容阅读
网络科学作为一门交叉学科,它的基本理论正渗透到从数理科学到生命科学、工程科学甚至社会科学等众多学科中去。复杂网络的研究引起了世界不同领域科学家的广泛关注。对复杂网络的定性和定量特征的认识和理解是网络时代中一个重要而又具有挑战性的课题。作为复杂网络中一个重要特性,模块结构(或称社团结构)是一个重要而又普遍存在的结构特性。准确挖掘和分析模块结构对理解复杂网络的演化、结构和动态性都有着理论和实践的意义。模块结构作为生物复杂网络中的功能模块组织形式,在生命科学领域中有着重要的意义。人们虽然提出很多有效的算法来分析功能模块,如基于图论的方法,基于随机游走模型和谱聚类方法,但是这些方法在算法层面和生物网络局限性上都存在一定的缺陷。面对这些问题,需要我们有针对性地研究并提出新的功能模块挖掘方法。在本文中,我们主要研究了如何挖掘生物复杂网络中的功能模块,并探索了多样性的功能模块组织形式。首先,针对现有模块分析算法存在的缺陷,提出一种衡量网络中任意两个结点的新相似性ISIM,依据这种新的相似性和层次聚类思想对生物网络中的功能模块进行挖掘,并利用新结点相似性进一步揭示了生物网络中蛋白质复合物的层次性和功能模块的多尺度性。为了避免生物网络不完备性带来的影响,我们通过融合多条件下基因共表达谱数据构建完备的基因共表达网络,进而分析功能模块。接下来,我们突破模块结构是生物复杂网络中功能单元的唯一组织形式这一概念,在生物网络上发现一种新的功能模块组织形式,Bi-sparse功能模块。并相应地提出一种能同时挖掘高聚合和稀疏功能模块的二叉树搜索方法。最后,通过大规模网络的统计分析,深入研究了Bi-sparse模块的一些特性。因此,本文的研究内容和创新点主要包括以下几个方面:(1)为了有效地克服现有功能模块挖掘方法的缺点,我们使用受限的随机游走模型,提出一种新的转移概率矩阵,进而定义一种新的结点相似性ISIM来衡量网络中任意两个结点之间的距离。新的结点相似性有三个良好的特性,一是它能成功地融合网络的全局和局部拓扑信息;二是新结点相似性不仅能有效地衡量两个结点之间的距离,而且能捕捉到两个结点在网络中的拓扑结构;三是它是在一个收敛的空间定义结点相似性,因此,在一系列不完备和含有噪声的生物网络中,具有良好的稳定性和鲁棒性。使用新结点相似性和层次聚类思想,可以有效地分析生物复杂网络中的功能模块。首先,我们使用新结点相似性产生网络的相似性矩阵。然后,使用层次聚类思想建立网络模块的树状结构。最后,选择合理的目标函数自动地挖掘网络中的功能模块。在此基础上,通过改变新结点相似性中的调节因子,本文又提出一种新的方法(isimb方法)揭示生物网络中蛋白质复合物的层次结构和功能模块的多尺度特性。与现有的模块挖掘方法相比,基于新结点相似性的方法是一个无参数的方法,它能自动地确定网络中模块的个数。使用它挖掘到的模块不仅与真实的功能模块结构获得更好的匹配,而且能有效克服生物网络不完备性的缺陷。与单尺度的方法相比,本文创新性地把模块多尺度概念引入到生物网络中蛋白质复合物和功能模块的挖掘,这种新的理念不仅能成功地预测蛋白质复合物及其层次特性,而且能从具体到一般的视角揭示功能模块的动态过程。(2)针对生物网络的不完备特性和基因共表达的不传递性,本文提出一种新的方法检测基因共表达网络中的功能模块。这种方法首先融合不同条件下基因共表达谱数据构建完备的基因共表达网络,随后使用最大团算法挖掘网络中的功能模块。这种新的方法与其它方法相比,预测的结果有较强的生物功能相似性。通过转录和调控关系分析,预测功能模块中的基因有较高的概率被同一个转录因子所调控,从而为构建基因调控网络提供丰富的结果。(3)传统的生物网络中功能模块的挖掘都是基于高聚合的模块结构是功能模块组织的唯一形式。然而,这个结论在生物网络中,特别是在蛋白质相互作用网络中存在可疑性。因此,我们发现一种与高聚合模块不同的bi-sparse模块,然后结合二叉树理论和矩阵论提出一种新的方法(bts方法)来挖掘两种类型的功能模块。bts方法在蛋白质相互作用网络中挖掘的高聚合模块和bi-sparse模块都组成功能单元。与其它的方法相比,bts方法具有良好的性能:一是不需要预先设置模块的个数;二是挖掘的高聚合模块和Bi-sparse模块都具有显著性的生物功能相似性。(4)我们把高聚合模块和Bi-sparse模块作为功能单元的组织形式共存于同一网络中,这一概念进行泛化。我们整理了四种类型共25个网络,用BTS方法对25个网络中的模块进行分析,结果发现:(a)Bi-sparse模块具有普遍性;(b)在社会网络中,Bi-sparse模块中的人们充当着经纪人的角色,负责协调不同群体之间的矛盾,促进信息、技术和知识的交流等作用;在计算机软件网络中,Bi-sparse模块中的结点具有相似的软件包属性;在生物复杂网络中,Bi-sparse模块中的蛋白质或基因具有显著性的功能相似性;(c)复杂网络中的Bi-sparse模块拥有一些特性:一是Bi-sparse模块和高聚合模块相比,Bi-sparse模块含有的结点较少;二是Bi-sparse模块在不同类型的网络中,具有一定的偏好性;最后,存在复杂网络中的Bi-sparse模块有两种明显的拓扑结构。