论文部分内容阅读
随着高通量测序技术的不断发展以及人类表观基因组计划的实施和推进,数据库中出现了大量的组蛋白修饰数据和转录因子结合数据。然而,对这些海量数据的处理和理论分析远远跟不上实验数据的增加。因此,利用生物信息学的手段来系统地分析这些数据就成为当今生物信息学的研究热点。此外,研究表明,组蛋白修饰和转录因子在基因表达的调控过程中扮演着不可或缺的角色。基于这些理论,本文以人类胚胎干细胞(H1)、B淋巴细胞(GM12878)和血癌淋巴细胞(K562)为研究对象,使用多种生物信息学方法分析了组蛋白修饰、转录因子与基因表达之间的关系,论文的主要研究内容如下:1.研究了组蛋白修饰与转录因子在所有参考基因转录起始位点两翼区域内的分布情况,以及它们的分布对基因表达产生的影响。结果发现,在组蛋白修饰和转录因子分布水平较高的区域,组蛋白修饰和转录因子与基因表达之间的关联性较强;反之,关联性较弱。此外,通过研究人类胚胎干细胞中57种转录因子在高、低表达基因转录起始位点两翼区域内的分布情况发现,54种转录因子促进基因表达,1种转录因子抑制基因表达,剩余2种转录因子会根据靶基因的不同执行促进或抑制的功能。2.利用主成分分析方法提出了转录因子组合的综合指标,并构建基于转录因子综合指标预测基因表达水平的新理论模型。该模型不仅获得了较好的预测结果,而且在将该模型用于预测启动子区域富集高、低CG含量的基因的表达水平时,发现了几个重要的转录因子组合模式。3.结合高斯核函数定义了转录因子与基因的关联强度,并将其应用于寻找转录因子调控的靶基因,取得了与实验符合很好的理论结果,不仅已被实验证实的基因被涵盖在我们的结果中,而且发现了一些新的靶基因。4.在H1、GM12878和K562细胞中,我们利用多元线性回归模型、支持向量机模型和随机森林模型,分析比较了转录因子与组蛋白修饰对基因表达水平的预测能力。结果显示,两者具有较好的一致性。通过运用BETA靶基因识别软件识别转录因子和组蛋白修饰的靶基因,并将相关性较强的组蛋白修饰和转录因子各自调控的靶基因取交集。结果发现,它们共同调控的靶基因远多于彼此独立调控的基因。这一结果说明,转录因子和组蛋白修饰对基因表达的影响具有相似性,而且功能上的相似性导致两者在基因表达水平预测时呈现出一致性。5.研究了H1、GM12878和K562细胞中不同组蛋白修饰和转录因子对基因表达的贡献强度。结果表明,POLR2A和H3K36me3发挥的作用尤为显著。为了验证结论的可靠性,我们构建了组蛋白修饰、转录因子和基因表达数据之间的相互作用网络,以及计算了每一窗口内每种组蛋白修饰对基因表达的贡献分数。相互作用网络显示,H3K36me3和POLR2A以直接作用的方式促进基因表达,并且在被研究的80个窗口内,H3K36me3对基因表达的贡献排序都比较靠前。6.以人类慢性粒细胞白血病为研究对象,系统地分析了基因body区域中H3K36me3水平对基因表达差异程度的影响。研究发现,在肿瘤的发生过程中,基因表达水平差异程度较高的基因,它们的基因body区域富集较少的H3K36me3;而表达水平差异程度较低的基因,它们的基因body区域富集较多的H3K36me3,并且我们在人类肺癌、乳腺癌和小鼠慢性粒细胞白血病中验证了这一结论。进一步研究表明,富集较低H3K36me3水平的基因参与了许多与癌症发生密切相关的生物学过程,如不断的增殖信号、促进肿瘤炎症、抵抗细胞死亡、诱导血管生长和解除细胞能量控制。在此基础上,结合其它理论预测算法,确认出WT1,DNMT3A,CACNA1E,PHACTR1和GBP4等5个与慢性粒细胞白血病紧密关联的驱动基因。