论文部分内容阅读
蛋白质相互作用网络决定了大部分细胞功能。研究蛋白质相互作用网络进化,不仅有助于揭示生物进化机制和物种多样性,同时还有助于理解细胞中蛋白质的组织特点和发挥功能的方式等。虽然多年来学者们从多个层次针对蛋白质相互作用网络进化领域的诸多问题展开讨论,但是至今该领域仍然有很多问题存在争议,网络进化机制也还远未被完全揭示。本文主要针对蛋白质相互作用网络的起源和进化模式、在蛋白质相互作用网络进化过程中起到重要作用的蛋白质自相互作用等问题展开研究。首先,本文从网络模体的角度研究蛋白质相互作用网络进化模式。研究蛋白质相互作用网络进化,一个基本且重要的问题就是研究在网络进化的各个阶段新起源的蛋白质是以何种方式添加到网络中的。网络模体定义为复杂网络中具有特定拓扑的重复的连接模式,代表细胞机器最简单的组成单元,具有重要的生物学意义。首先,依据蛋白质起源时间将蛋白质进行年龄分类,本文发现在今天的蛋白质相互作用网络中,相同年龄类的蛋白质倾向形成网络模体,并且这种模体成员蛋白质的共起源受到模体拓扑和成员的生物学功能的影响。进一步本文发现由起源于同一年龄类的蛋白质所组成的模体的成员蛋白质倾向共进化,共享相同的生物学功能,并且这些模体倾向是蛋白质复合物的组成单元。这些结果暗示蛋白质相互作用网络中这些由同一年龄类蛋白质所组成的模体倾向在历史上被成簇添加到网络中,特别是那些具有特定功能和紧密拓扑的年龄类一致的模体。该工作首次为蛋白质相互作用网络进化可能经历成簇节点添加的生长过程的假设提供网络模体角度的证据,并暗示功能约束(自然选择)可能是这种成簇节点添加背后的驱动力。该工作有助于揭示蛋白质相互作用网络进化机制。其次,本文对自相互作用蛋白质展开系统研究和预测。自相互作用蛋白质指的是某种蛋白质的两个或者两个以上拷贝能够发生相互作用的蛋白质。自相互作用蛋白质对细胞发挥功能以及对蛋白质相互作用网络进化,特别是蛋白质相互作用网络模块化的形成都起到重要的作用。目前最常用的两种高通量检测蛋白质相互作用的实验技术——酵母双杂交和亲和纯化-质谱在检测蛋白质自相互作用方面的局限性可能导致人们大大低估了自相互作用蛋白质的数量。被低估的蛋白质自相互作用可能会误导人们对蛋白质相互作用网络进化的一些认识。本文首先从多方面对自相互作用蛋白质展开系统研究,发现和其它非自相互作用蛋白质相比,自相互作用蛋白质在序列方面,倾向更加复杂(更多的结构域数目)但是更加稳定(更少比例的无序性蛋白质);在功能方面,富集信号分子、酶基因,并且倾向是看家基因(人)或者必要基因(酵母);在进化方面,倾向更加保守,并且显著富集起源于三界生物共同祖先的蛋白质;在网络拓扑方面,在多种类型的生物学网络中都倾向处于重要的位置。而后,基于自相互作用蛋白质在多方面所具有的独特的性质,本文发展了一个基于朴素贝叶斯方法整合模式生物自相互作用蛋白质、结构域相互作用和网络拓扑三类证据的人的自相互作用蛋白质预测模型。5倍交叉验证表明该预测模型具有较好的预测效果。该工作是首个从多方面对自相互作用蛋白质展开系统研究的工作,发展的预测模型也是首个自相互作用蛋白质生物信息学预测模型。该工作不但有助于理解自相互作用蛋白质在细胞功能中的作用,同时所发展的自相互作用蛋白质生物信息学预测模型也在实验检测之外提供了一种扩展自相互作用蛋白质列表的有效方式。同时该工作也为下一步研究蛋白质自相互作用在蛋白质相互作用网络进化中的作用奠定了基础。最后,本文建立了基于蛋白质相互作用网络的基因功能预测体系,对人类肝脏细胞器蛋白质组(Human Liver Organelle Proteome, HLOP)研究产出的数据进行规模化的功能挖掘。人类肝脏细胞器蛋白质组研究前期在人类肝脏线粒体、细胞核、内质网和高尔基体四个细胞器中鉴定到了大量蛋白质。为从中挖掘出与人类肝脏功能、细胞器功能密切相关的重要的生物学线索,本文基于蛋白质相互作用网络和GO(Gene Ontology, GO)功能、KEGG(Kyoto Encyclopedia of Genes and Genomes, KEGG)通路注释,建立了“直接法”(利用待预测功能的蛋白质在网络中的直接相互作用对象)和“模块辅助法”(利用待预测功能的蛋白质所在的功能模块)两种基因功能预测体系。使用这两种预测体系,同时考虑亚细胞定位信息和肝脏表达基因数据,本文为1753个HLOP蛋白质的编码基因(HLOP基因)预测了新GO功能,特别是其中包括180个之前无任何GO生物学过程注释的基因和511个新定位基因(在数据库中之前无相应亚细胞定位注释的基因);为1592个HLOP基因预测了其可能发挥功能的KEGG通路,特别是其中有154个之前无任何GO生物学过程注释的基因和477新定位基因。对预测结果进行初步筛选,本文发现6个潜在与细胞器功能密切相关的基因,为进一步对这些基因进行功能实验研究提供了重要线索。本文所建立的规模化的基因功能预测体系将在本实验室今后的蛋白质组学研究中,特别是在大规模蛋白质组学数据功能挖掘中发挥重要作用。总之,本文就蛋白质相互作用网络进化领域的多个问题展开讨论。本文工作有助于理解生命体系的进化机制和基本运行机制,为接下来的系统生物学研究奠定了基础。