论文部分内容阅读
大多数的基因组注释局限于一维线性水平。随着高通量技术的发展,越来越多的研究表明远程调控在基因表达中有重要作用,例如调控元件的远程调控在生物体分化、发育等过程中是必不可少的。想要深入了解基因的表达调控模式,仅从一维结构来研究基因组已不能满足需求,很明显我们应该从多组学和三维的角度来研究基因组。Hi-C和Ch IA-PET是最早的全基因组高通量捕获染色质三维结构的方法。Hi-C方法需要生物素标记,磁珠富集等繁琐步骤;Ch IA-PET技术只能特异性富集相关蛋白介导的交互。基于以上考虑,本课题组和华中农业大学曹罡教授课题组联合开发出了只需要酶切酶连的DLO Hi-C技术,该技术实验过程简单,建库和测序的成本显著降低。本研究以DLO Hi-C为研究方法,构建了K562、宫颈癌组织样本和巨噬细胞THP-1分化激活前后的三维结构图谱。本研究的主要结果如下:1.构架DLO Hi-C分析流程。针对DLO Hi-C染色质捕获技术的捕获标签序列较短等特征,构建了适合DLO Hi-C数据的分析流程。分析流程主要包括接头过滤、序列比对、去冗余、噪音过滤和归一化处理5步。通过比较单交联和双交联捕获的染色质交互数据质量,发现双交联可以有效降低噪音。2.DLO Hi-C和其他方法的比较。我们从全基因组交互矩阵的相关系数、全基因组交互热图、整体文库质量、A/B区室、拓扑结构域和染色质环6个角度比较了DLO Hi-C,in situ DLO Hi-C和另外几种常见的用于研究染色质三维结构的方法。结果表明,在K562细胞系中,不同文库得到的全基因组三维结构具有一致性,DLO Hi-C和in situ DLO Hi-C方法可以获得更高比例的染色质内部交互和远距离交互。在全基因组范围内寻找显著交互的染色质环,in situ DLO Hi-C较其他方法有明显优势。3.构建了THP-1细胞系的三维基因组结构图谱。结合in situ DLO Hi-C和DLO Hi-C文库,构建了THP-1细胞系的三维基因组结构图谱。在染色质之间发现了很多异常的交互,并且大多数被鉴定为染色质易位位点,鉴定得到的染色质易位位点的精度高于现有的方法。4.构建了宫颈癌组织样本和宫颈原代上皮组织的三维基因组结构图谱。利用宫颈癌组织样本和宫颈上皮的DLO Hi-C文库构建两种组织样本的三维结构。通过两种组织样本之间的三维结构差异,结合转录组和组蛋白修饰,推测人乳头瘤病毒(HPV)在插入基因组DNA之后,改变了局部的基因组三维结构构象,导致抑癌基因PEG3的下调和癌症相关基因CCDC106基因的上调,进一步导致癌症。5.构建了巨噬细胞分化激活过程中的表观基因组和三维基因组图谱。通过比较巨噬细胞在分化激活过程中染色质状态的变化,发现基因的表达量和相应启动子的状态密切相关。在巨噬细胞分化激活的过程中,大部分的A/B区室和拓扑结构域保持不变。在巨噬细胞分化过程中新出现的拓扑结构域边界富集和发育相关的转录因子,巨噬细胞被结核分枝杆菌感染的过程中新出现的拓扑结构域边界富集了很多和免疫相关的转录因子。6.在巨噬细胞分化过程中,很多发育相关基因的状态发生变化,如MYC基因参与的染色质交互有明显差异,并伴随有相应的组蛋白修饰和表达量变化。7.在巨噬细胞被结核杆菌激活的过程中,差异的染色质交互环对应的基因富集在免疫和细胞因子等相关的通路中。结核杆菌感染之后,和内源性免疫相关并且在抗病毒中起重要作用的IFIT基因家族基因染色质交互环明显增强,并且组蛋白修饰和基因表达量都有明显的变化,另外先天性免疫基因GBP基因家族也有相应的变化,并进一步证实了GBP基因家族在抵抗结核杆菌侵染的过程中起着重要作用。8.结核杆菌感染之后,和抗原呈递相关的MHC 1通路基因大多数上调表达,该过程伴随着反馈调节PD-L1通路的基因大多数上调表达。我们通过远程染色质交互发现了新的调控PD-L1基因的增强子。本研究结合DLO Hi-C的建库流程构建了DLO Hi-C数据的分析流程,并构建了不同样本的三维结构图谱,从不同角度剖析了DLO Hi-C和另外三种Hi-C方法的异同。结合宫颈癌和原代样本的多组学差异,发现了宫颈癌可能的发生机制。通过比较巨噬细胞在激活前后多组学的差异,在结核杆菌刺激巨噬细胞之后很多关键的免疫基因表达量、组蛋白修饰和染色质交互都发生了明显变化。该研究将为癌症和肺结核的治疗提供重要的理论依据。