论文部分内容阅读
DNA甲基化是一种重要的表观遗传修饰,它与基因转录、胚胎发育、X染色体失活和肿瘤的发生密切相关。不同的DNA甲基化模式和它们对应的序列特征、组蛋白修饰是紧密相关的。然而它们在不同基因组区域和不同细胞系间的关系还未被系统的研究。为了进一步研究不同DNA甲基化模式与遗传和表观遗传因子之间的关系,本研究使用人类胚胎干细胞(H1),胚胎干细胞培养得到的神经前体细胞(NPC)和胎儿成纤维细胞(IMR90)的高通量的全基因组DNA甲基化谱、组蛋白修饰谱和人类基因组序列特征分析DNA甲基化模式与组蛋白修饰、序列特征之间的关系。基于随机森林模型发现组蛋白修饰预测上述三个细胞系全基因组的DNA甲基化模式得到了很高的精度,然而加入序列特征后只有在IMR90的非启动子区域可以有效的提高预测精度。此外,本研究发现应用随机森林中的平均下降基尼系数确定的重要的6个特征组合(包含组蛋白修饰和序列特征)是区分DNA甲基化模式的重要标志,其中H3K4me2、H3K4me3是基因组区域和细胞系保守的标志,然而H3K9me3是IMR90细胞特异的,且和DNA甲基化的关系也是基因组区域特异的。接下来,应用确定的关键组蛋白修饰从H1到IMR90的动态变化分析它们与DNA甲基化变化之间的关系,发现细胞系间组蛋白修饰组合的变化与DNA甲基化的差异紧密相关。应用组蛋白修饰和DNA甲基化共变化的基因进行GO富集分析发现它们的功能是基因组区域特异的。通路富集分析发现它们主要富集在癌症相关的通路。本研究提供了一个整合的策略从宏观上来识别DNA甲基化模式的基因组区域特异和细胞类型特异的关键的表观遗传和遗传影响因素。