论文部分内容阅读
后基因时代,生物医学的研究焦点已经逐渐从分子生物学转移到系统生物学,其目标之一是对细胞中的分子和它们之间的相互作用进行系统地分析与研究。细胞中的分子和它们之间的相互作用产生了大多数的生物功能。研究人员要明确这些分子和它们之间的相互作用是如何决定复杂的生物功能。系统生物学的快速发展表明分子网络也遵守普遍规律,同时提供了一种新概念,这种概念可能改变我们的对生物学和疾病病理的观点。蛋白质作为生物细胞中各类分子中的一种,是细胞结构和生命的核心组成部分。蛋白质之间的通过相互作用,可以组成不同的蛋白质复合物,同时在信号通路上可以调节和控制细胞的生物过程。生物体内所有蛋白质之间的相互作用可以构建为蛋白质-蛋白质相互作用网。高通量数据实验技术的发展,例如“串联亲和纯化”,“蛋白质芯片”,“酵母双杂交”和“质谱分析”等,使得我们能够获取海量的蛋白质相互作用数据。在蛋白质相互作用网络中,密集模块通常有较为重要的生物学解释,密集子网通常代表蛋白质复合物和一致的生物过程。识别出蛋白质相互作用网络中的交互模块已经成为一个研究热点,许多研究团队提出不同的算法,例如MCODE,CPM,MINE等。蛋白质交互模块的组成由多种因素决定,如网络中边的密度,网络中节点度分布,网络的拓扑结构等。本文中首先提出了一种节点展开模型,基于这种模型又提出了蛋白质交互模块识别算法。在算法中首先计算边的权值,然后计算节点的权值,这样是一个无权值的蛋白质网络转化为一个有权图。在该算法中,我们使用酵母和人类蛋白质相互作用网络,以验证我们方法的有效性,并分析参数设置对交互模块的规模和数量的影响。使用Gene Ontology和pathway富集分析之后,我们发现识别的模块都有较好的生物学解释,并且与癌症紧密相关。然后又定义蛋白质网络拓扑信息,基于这些定义,又提出了一种蛋白质交互模块识别算法,该算法引入了随机选择的思想,即核心节点的随机选择,候选节点的随机选择,扩展顺序的随机选择。为进一步算法的并行化,做出了理论基础。利用酵母和人类的蛋白质-蛋白质相互作用网络来展示该算法的有效性,为了评估算法预测的准确率,将该算法与众多顶级交互模块发现算法进行了对比。该算法预测的蛋白质交互模块结构更为稳定,与已知交互模块的组成更为相似,比其他算法有更高的准确性。又分析了参数对预测结果的影响,找到一个算法的最佳参数。同时使用Gene Ontology和pathway对识别的模块进行富集分析,发现所得结果有较好的生物学意义。随着海量蛋白质相互作用数据的产生,如何快速并且正确地处理这些蛋白质网络,成为了挑战。云计算,分布式计算,流计算等方法被提出来应对这一种挑战,开源Hadoop云计算项目已经引起广泛的关注,MapReduce编程模型简化了许多数据并行应用程序的实现,在本文中,也利用了MapReduce对具有随机选择思想的算法进行了并行化,发现并行化后的算法在处理时间上大大的减少,具有较高的加速比,并且发现数据量越大,并行化算法的优势就越大。在算法准确度上,并行化算法还是不如原算法即串行算法,这可能是因为串行算法中数据依赖的地方,并行算法识别模块数要大于串行算法。通过对模块进行功能富集分析,发现找到的模块具有统计学上的生物意义。在查阅国外论文的时候,发现以往算法,仅利用蛋白质网络单一数据集,把蛋白质网络看成静态网络。事实上,蛋白质网络不是静态的,而是一个动态实体,一个蛋白质是否表达是由在时间和空间上不同调控机制决定的。生物研究中存在多种组学数据,下一步的工作是融合不同组学数据,将静态的蛋白质网络构建为动态网络,揭示蛋白质网络的模块化组织,深入挖掘网络模块的生物学意义,寻找具有联合效应的子网标记物,进而阐明疾病发生的机理与过程。