论文部分内容阅读
表观遗传学作为一门新兴的遗传学分支学科近年来越来越受到科学界的关注。表观遗传学是与传统的遗传学相对应的。传统的遗传学研究基因序列发生改变时基因表达水平发生的变化,如基因突变、基因丢失等。而表观遗传学则主要研究基因序列不发生改变的情况下基因表达水平发生的变化,如DNA甲基化、RNA干扰、组织蛋白修饰等。DNA元件百科全书计划(ENCODE)是由美国国立人类基因组研究所(NHGRI)发起的,并由世界上多个国家参与的重大国际合作项目。ENCODE计划目前获得的大量数据以连续的形式存在于多种基因组区间内,但它们之间的相互作用关系在很大程度上仍是未知的,因此迫切需要定量评价不同类型ENCODE数据间相互作用关系的计算方法。目前主要缺少分析表观基因组数据的有效方法,缺少整合基因组与表观基因组的合理策略,并缺少研究与疾病关联作用的分析手段。我们希望能够提出一种全新的方法,可以在不同尺度的情况下对表观遗传数据进行处理,从一种全新的角度对不同类型的ENCODE数据间的相互作用关系进行研究,小波变换可以对表观遗传组信号进行多尺度分解和去噪,观察不同尺度下的数据特征。应用小波变换方式处理不同尺度及分辨率的数据,即通过大“窗口”(大尺度)信号观测总体功能,而通过小“窗口”(小尺度)信号发现细小特征。形象的说,小波变换分析的结果既可以帮助我们看见森林又能见到树木。小波变换作为一种经典的数学工具,能够对信号进行降噪处理。在对信号进行多尺度分析时,能够保持信号原有的性质,并且展现信号在不同尺度下的特征,适合在变尺度条件下观察表观基因组的调控机理和染色质的功能域结构。本文基于小波变换提出了一种全新的表观基因组分析方法,可以在不同的尺度下处理表观遗传信号,对表观遗传信息的相关性进行检验,并重新识别染色质功能域。通过该分析方法可以对表观基因组进行多尺度分析,并从组蛋白修饰的角度研究染色质结构与功能,解读表观图谱。研究结果表明,该方法适用于分析不同实验数据类型间相互作用关系以及识别人类基因组功能域及功能元件。本研究具体针对多尺度连续高密度的表观基因组数据集,应用小波相关性分析方法(WCO)研究了表观遗传基因组数据集间的相关性,并进行了可视化、定量化及确定化的统计学分析。具体研究工作是:(1)对小波相关性进行正式的统讦学测试,验证应用WCO方法分析组蛋白修饰的数据是否恰当。(2)描述(各细胞系间)组蛋白修饰和(各组蛋白修饰的)细胞系间的小波相关模式,并评价与组蛋白修饰如何密切相关。(3)探索激活和抑制状态下修饰作用的小波相关,并识别ENCODE试点区间的二价染色质功能域。我们选用的原始数据是44个ENCODE试点区,包括从500kbp至2Mbp大小不等的14个区域和30个500kbp的区域。主要从四个方面进行小波相关分析。(1)对单一ENCODE试点区ENm004内GM06990细胞系中9个组蛋白修饰的小波相关进行了检测。我们首先在16kbp尺度下对各个组蛋白修饰对的小波相关性进行分析。然后在8kbp、32kbp和64kbp尺度下对H3K4me2和H3K4me3的小波相关分析进行研究。接着又在8kbp、32kbp和64kbp尺度下对各个组蛋白修饰对的平滑相关分布进行分析。(2)将初步观察扩展至其他ENCODE试点区,对其他43个ENCODE试点区也进行了相同的检测。我们首先在16kbp尺度下对GM06990细胞系中44个ENCODE试点区的H3K4me2和H3K4me3的小波相干分布进行分析。接着研究在8kbp、32kbp和64kbp尺度下44个ENCODE试点区H3K4me2和H3K4me3的小波相关分布。然在多尺度下分析GM06990细胞系中全部组蛋白修饰对的平均小波相关性。并对特定区域的F统计量的平滑分布,基因密度的F统计量的平滑分布和保守序列的F统计量的平滑分布进行了统计分析。在16kbp的尺度下,我们从小波相关曲线、多尺度平滑相关分布和信号相关分布三方面对HeLa-S3细胞系ENm004试点区中H3K4me2和H3K4me3的小波相关分析结果进行研究。并在同一尺度下对HeLa-S3细胞系中44个ENCODE试点区内组蛋白乙酰化与H3K4甲基化的小波相关分布进行数理统计。(3)对GM06990和HeLa-S3细胞系中组蛋白乙酰化和H3K4甲基化进行了分析。在尺度为16kbp下,我们从小波相关曲线、多尺度平滑相关分布、尺度为16kbp时信号相关分布三方面对在细胞系GM06990和HeLa-S3中H3K4me3的小波相关分析结果进行研究。并在16kbp尺度下,对GM06990和HeLa-S3中44个ENCODE试点区的组蛋白乙酰化与H3K4甲基化的小波相关分布进行了研究(4)通过检测5%的显著性水平下某些ENCODE试点区,识别了H3K4me3和H3K27me3信号的共同位点,并研究了H3K4me3和H3K27me3的bivalent区域小波相关性。我们对GM06990激活态和抑制态修饰重叠区的bivalent区域进行了分析,检测了所有ENCODE试点区bivalent区域。经仔细检查发现,间隔区内的43个二价染色体域远离上游和下游基因,这说明我们所分析的这些二价染色体域很可能大量存在于人类基因组中。通过上述分析发现,组蛋白之间在不同的试点区及细胞系间的相关性具有一定的相似性,有的组蛋白修饰对在不同的细胞系下表现出了高度小波相关性的程度,我们在分析各ENCODE试验区组蛋白修饰的小波相关时发现,同区域的两个标记富集表现一致时,可出现高度的小波相关,这些都多尺度ENCODE试点区的基因组分布模式密切相关.识别出的小波相关模式可检验那些用于解释组蛋白修饰功能的各种模型,如组蛋白编码、信号网络和电荷中和模型。这一发现可能有助于确证多种表观遗传学假说。另外,通过小波相关来分析激活和抑制状态下的修饰作用显示,上述数据分析方法适用于重新识别二价染色质功能域,广泛适用于探索不同实验数据类型间相互作用关系以及识别人类基因组功能域及功能元件。