论文部分内容阅读
识别蛋白质相互作用网络中的模块结构,是理解细胞功能的组织结构以及动态性的第一步。分析蛋白质网络的拓扑特性,以其模块性为基础,从蛋白质网络中识别有意义的蛋白质复合体和功能模块、注释未知的蛋白质功能、为已知功能的蛋白质预测新功能正成为当前国内外研究的热点问题。本文基于蛋白质网络的拓扑特性,研究了有效识别蛋白质复合体和功能模块的算法。进一步,将模块结构识别算法研究推广到复杂网络中。主要研究工作包括:基于MCODE(Molecular Complex Detection)和GN(Girvan and Newman)算法,提出一种识别蛋白质复合体的新算法。分析了MCODE和GN算法的优缺点,根据蛋白质网络的拓扑结构,提出一种组合MCODE和GN的新算法。将算法应用于酵母蛋白质网络中,它可以快速地识别更稠密的模块,而且识别的蛋白质复合体与MIPS(Munich Information Center for Protein Sequences)中已知复合体具有高的重合率。这说明新算法可以识别更多具有生物意义的蛋白质复合体。对蛋白质复合体结构的深入研究发现,它主要由一个核和一些附件构成。根据复合体核和附件所具有的特性,提出一种基于局部密度和随机游走的蛋白质复合体识别算法。基于子网络的局部密度找到所有的复合体核,利用随机游走为每一个核查找附件蛋白质,从而构成蛋白质复合体。将算法应用于无权和有权的酵母蛋白质网络。通过与MIPS和GO(Gene Ontology)中已知蛋白质复合体比较,讨论预测复合体的生物意义,并与现有一些算法进行全面的分析比较。结果表明,我们的算法可以找到更多具有生物意义的复合体。而且,它可以识别具有生物意义的重叠复合体。根据最大频繁模式和复合体核的特性,提出一种基于最大频繁模式识别核-附件结构蛋白质复合体算法。通过挖掘最大频繁模式检测蛋白质网络中具有较高度的子图,将其作为候选核。对得到的候选核做进一步处理:利用拓扑和功能相似性,合并最相似的核并过滤无意义的核。为每一个有意义的核添加附件蛋白质,从而构成蛋白质核-附件结构复合体。在酵母蛋白质网络上,利用标准蛋白质复合体、GO和位置注解等对算法进行性能评估,并与几个具有代表性的算法进行全面比较。实验结果表明,预测复合体在查全率、查准率,以及生物意义方面都好于现有算法。在共位置相似性方面,预测复合体集合高于已知复合体集合。而且,与其他基于子图连通性的算法相比,新算法可以检测到GO富集度高的具有非连通核的蛋白质复合体。基于模块内部边和模块间的边,以及网络平均度,给出一种新的蛋白质模块定义,并据新定义提出评估蛋白质网络划分的度量函数。作为度量函数的进一步应用,提出一种分层凝聚算法检测蛋白质复合体。将算法应用于酵母蛋白质网络,识别的蛋白质复合体与已知蛋白质复合体进行比较分析,并将算法各方面性能与其他几个典型蛋白质复合体识别算法进行比较。新算法对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质复合体。此外,它既可以预测有意义的稠密蛋白质复合体,又可以预测稀疏的有意义复合体。对于复杂网络模块分解问题,基于社团的局部连通性,提出新的评估复杂网络划分的定量指标函数。由于广泛用于识别复杂网络社团结构的模块性函数Q具有分解极限。因此,新定量指标函数——度模块性(degree modularity, DQ)被提出来。证实DQ可以改进模块性Q的分解极限。而且,将其应用于不同真实网络和人工网络时,它可以敏感、可靠地检测到各种规模的社团结构。即使在大规模的生物网络,如蛋白质网络,也可以识别与已知复合体匹配率很高的蛋白质模块。本文提出几种从不同角度研究蛋白质网络模块结构识别的聚类算法,同时将模块结构识别算法研究扩展到复杂网络中。本文提出的聚类算法具有很好的聚类效果,识别的蛋白质复合体或功能模块从统计意义上证明是有生物意义的,有效预测了一定数量的未知蛋白质功能,将会对生物学家进行蛋白质复合体或功能模块识别实验和进一步研究提供有价值的参考信息。此外,针对衡量复杂网络模块性提出的定量指标函数,对于真实网络和人工网络都表现出良好的性能。