论文部分内容阅读
系统生物学是基于整体论的观点,试图通过研究基因、蛋白质及其它代谢小分子之间的大规模相互关系与相互作用,来系统研究生物体系的结构、功能和行为的学科。而网络作为系统生物学最广泛使用的模型,被应用到越来越多的生物学研究中。本文主要是针对基因表达调控这一重要的生命活动机制进行研究。通过构建人的包括转录因子和miRNA在内的转录调控网络,研究组织特异性基因和管家基因的调控特性,以及不同组织的基因调控模式,试图寻找基因调控网络的基本结构规律和调控规律;并利用网络的结构特性寻找区分实质性非乳突状胰腺瘤和胰腺导管癌以及胰腺内分泌癌的分子标记物。本文完成了如下3个部分的研究工作: 1.组织特异性、管家基因和疾病基因的调控特性研究 转录因子(TF)与miRNAs在基因表达调控中起着非常重要的作用。而到目前为止,人的基因转录调控机制依然存在很多未知。比如,有限数量的调控子是如何调控众多基因的表达?虽然在所有组织中,基因具有相同的遗传密码,但为什么基因在不同组织中又体现出差异表达的特征?基因是如何实现在各种组织和不同时间上的特异性表达?本文通过构建人七个组织(大脑、心脏、肾脏、肝脏、卵巢、脾脏和睾丸)的转录调控网络,并分别对管家基因、组织特异性基因以及疾病基因的网络性质分析,发现不同类型的基因在网络中呈现出不同的拓扑结构,而这些结构特点则对应着相应的调控模式。首先,组织特异性miRNA的平均靶基因数目显著高于非组织特异性的miRNA,比如,组织特异性miRNA与非组织特异性miRNA在七个组织中的平均靶基因数目分别是278.55和55.011。这意味着非组织特异性miRNA倾向于调控相同的靶基因集,而不同的组织特异性miRNA倾向于调控不同类型的靶基因集。我们提出,在进化中,非组织特异性miRNA和他们靶基因形成核心功能模块执行细胞的基本功能,而组织特异性miRNA和他们的靶基因逐渐依附在核心模块周围,执行细胞特异性功能。其次,组织特异性的TF展现出更高的出度、入度、聚类系数以及点介数。比如大脑特异性TF的平均出度、入度、聚类系数和点介数分别是28.75、8.25、0.005和0.000374。明显高于大脑非特异性TF的平均出度(15.24)、入度(5.5)、聚类系数(0.002)和点介数(0.000228)。这表明组织特异性的TF在转录调控网络中占据更核心的位置,并且提供更短的路径将转录信息从上游基因传递到下游基因。再者,相对于非管家以及组织特异性TF,管家TF表现出更高的聚类系数,表明管家TF倾向于协同调控基因的表达。对不同类型的调控子在调控网络中的作用与性质研究,有利于揭示基因调控网络的基本构建原理。此外,本文也尝试对疾病基因的网络特性进行研究,发现疾病相关转录因子和miRNA基因也表现出独特的网络拓扑学性质。如在大脑中,疾病TF的平均聚类系数(0.016)是显著高于非疾病TF的(0.011)。同样地,大脑中疾病相关的miRNA的平均出度和入度分别是415.25和4.25,也是显著高于非疾病miRNA的平均出度(251.95)和入度(1.9)。疾病基因调控性质的研究有利于发现新的疾病基因以及药物靶点。 2.组织特异性功能模块挖掘与分析。 生物体的复杂功能是由基因和基因产物之间协调作用完成,而基因的表达则是由转录因子和miRNA分别在转录水平和转录后水平共同调控实现的。转录因子、miRNA和调控的靶基因之间相互作用而形成一个复杂且精细的调控系统,共同决定各种生物学过程,并在疾病的发生发展中起了很重要的作用。实际上,细胞各种功能的实现是由多个具有相似功能的调控子和其他基因相互作用而形成一个功能模块或复合体来完成的。然而,这种共调控在控制基因表达方面的机制还不是很清楚。考虑到组织特异性转录调控对特定组织的功能与形态学形成有直接的影响,我们企图从7个人体组织的TF-miRNA-非转录因子基因(nonTF)的转录调控网络出发,通过研究网络模块去阐述这种共调控的机制,并从模块的角度研究特定组织的功能的基因调控基础。首先获得了大脑、心脏、肾脏、肝脏、卵巢、脾脏和睾丸各个组织的20、11、15、12、16、16和15个转录调控模块。之后通过模块相似性比较得到了组织特有的转录调控模块,并通过对模块中基因功能的分析,找到与特定组织功能密切相关的因素。特别是肾脏和心脏特异性网络模块拥有大量文献支持,其中,肾脏的模块可能与肾细胞癌的发生相关,而心脏的特异性模块则可能与心脏室间隔形成相关,对维持心机细胞的正常功能非常重要。 3.基于转录调控网络的分析发现区别实质性非乳突状胰腺瘤与恶性胰腺癌的分子标记物 上述研究提示,不同类型的基因在网络中呈现其特定结构从而与生物体特定生物功能或生物过程相关。本文由此认为,对于一个具体的生物网络,可以基于网络结构分析挖掘关键基因和寻找关键调控路径或调控模式。我们尝试了对实质性非乳突状胰腺瘤(SPN)的网络分析,希望发现能够将SPN与两个恶性胰腺癌(胰腺内分泌癌和胰腺导管癌)进行区分诊断的分子标记物。SPN是一种不常见的恶性程度比较低的肿瘤,预后一般也较好。然而因其与恶性的胰腺内分泌癌和胰腺导管癌在形态学上相似,而且尚无有效的分子标记物,因此在术前诊断中很难将SPN和这两类恶性胰腺癌准确区分,从而造成误诊和对SPN患者的过度治疗。本文企图从转录调控网络的角度,从整体水平上研究SPN的基因调控机制,寻找新的SPN相关基因以及用以区分其与上述两种恶性癌症的分子标记物。我们使用共表达模型构建了SPN的转录调控网络,该调控网络包含180个转录因子、164个miRNA和6871个靶基因以及他们之间86,084个调控关系。同时,我们还通过文本挖掘方式收集了已经报道的SPN相关基因。通过计算这些基因在调控网络中的最短路径,找到了43个新的可能参到SPN发生发展的基因。最后,采用最近邻分类器的机器学习方法寻找新的能够准确区分SPN与两种恶性癌症的分子标记物,发现miR-194和miR-7以及包含SOX11、SMAD3和SOX4在内的7个转录因子能够准确地区分SPN和胰腺内分泌癌。而对于SPN和胰腺导管癌的区分,则共找到了miR-204和MAFG、SOX9、TCF7以及PPARD四个转录因子。这些计算结果为进一步的分子病理实验研究和新型临床诊断方法提供了有效的基础。