论文部分内容阅读
目的:表观遗传学中,DNA甲基化在基因转录中有着一定的作用。DNA甲基化主要发生在CpG上的胞嘧啶。在基因启动子区域的甲基化水平高低会调控基因的转录表达[1]。研究了解这些基因结构的甲基化状态,可以对基因转录表达和与细胞环境间相互作用的表观遗传学机制有一定的理解和认识[2]。而现有的研究,主要集中在组织之间甲基化的差异性或者癌症组织的甲基化水平,并没有深入研究CpG和甲基化水平两者的关系,因此对CpG和甲基化水平两者之间关系的研究显得极其重要[3]。本实验将研究两者的相关性,同时根据两者的分布情况拟合出曲线,根据曲线将CpG和甲基化水平的整体分布区域划分出不同部分,选取特殊的部分,再研究其生物意义[4]。方法:本实验用的数据是Illumina Hi Seq 2000测的甲基化数据,经过Fastqc检查数据质量合格,并用对比软件Segemehl将各个组织的甲基化数据与参考序列进行对比。运用滑动窗口方法进行处理CpG位点和甲基化水平,使两者的分布密度显现出来,再用min-max标准化的方法处理CpG密度和甲基化水平,使两者的数据在相同的数值单位范围内。用R语言中的Cor函数来计算CpG密度和甲基化水平的相关性。并用分区段的方法将基因结构分成不同部分,再观察不同部分的CpG密度和甲基化水平的关系。根据CpG密度和甲基化水平两者的分布情况,再拟合出来了符合它们分布的指数曲线。用指数曲线来划分CpG密度和甲基化水平两者的区域。用R语言中的Sd函数来计算Gap区域的组织甲基化差异性。将组织差异性大Gap与基因结构做重叠分析,从而将这些Gap区域划分成为两部分,一部分是与启动子区域有重叠的,另一部分没有与启动子区域重叠。结合Chipseq和RNAseq的数据来研究这些区域与对应基因的调控作用,在启动子区域的Gap区域,研究其对相应基因的近端调节。在研究远离启动子的Gap区域时,我们计算了区域中不同组织的Chipseq H3K27ac信号和所有基因启动子区域的Chipseq H3K4me3信号两者的相关系数,找出系数大的目标基因。结果:本实验在NCBI收集下载了人类18个组织和小鼠16个组织的甲基化数据,用对比参考序列后得到每个组织上的甲基化信息。通过滑动窗口和min-max标准化处理后,得到了各个组织的甲基化水平和CpG密度的分布图和相关系数。通过分段处理方法在基因结构上也展示出了CpG密度和甲基化水平的负相关性。根据CpG密度和甲基化水平两者的分布情况,拟合出了符合它们分布的指数曲线。再通过指数曲线将两者的分布区域划分成了四个区域类型,对Gap区域类型进行生物意义的分析。计算Gap区域组织之间的差异性,并得到了组织差异性大的Gap区域。这些Gap区域再与基因的启动子区域做重叠分析,得到了近启动子区域的Gap区域和远离启动子区域的Gap区域。在研究分析离着启动子近的Gap区域时,发现有一些基因不同启动子区域的甲基化水平是有一定组织差异性,认为基因的不同转录本在不同组织中是选择性表达的。在远端调控的Gap区域,我们发现了这些区域有一定的保守性、Motif和Dnase1,同时通过计算相关性,找到了远端调控的目标基因。结论:本文的研究结论主要有在人和小鼠的正常组织中CpG密度和甲基化水平是负相关的。CpG密度和甲基化水平整体分布情况是符合指数分布的。在与基因启动子区域重叠的Gap区域中,这些Gap区域可以近端调控基因不同的转录本选择性表达。在不与基因启动子区域重叠的Gap区域中,这些Gap区域远端调控目标基因。