论文部分内容阅读
第二代DNA测序技术能够平行地对数百亿的DNA片段进行序列测定。这种深度测序不仅可以全面覆盖样品中的DNA,而且能够对所测样品进行数字化的量化分析,检测动态范围大,在基因组学研究中具有重要的价值。在本论文中我们依托新一代DNA测序技术,开展了两方面研究工作。首先,我们建立了ChIP-Seq(染色体免疫共沉淀和高通量测序)技术平台,并成功地鉴定出转录因子EGR1在基因组范围内的结合位点:同时,我们建立了高通量的人类单精子细胞DNA测序技术及分析平台,成功地对单精子细胞的基因组进行了深度测序分析,鉴定了一批潜在的重组位点。 ChIP-Seq技术结合了染色质免疫共沉淀技术(ChIP)和高通量测序技术,能够在整个基因组范围内研究目标转录因子在活细胞基因组上的结合状态。EGR1是即刻早期反应基因IEGs(immediateearlygenes)家族中的一个转录因子,广泛参与细胞生长和分化、细胞凋亡、炎性细胞趋化、免疫刺激等多种细胞反应。以前的研究表明EGR1的缺失会导致PMA诱导的K562细胞向巨核细胞分化的阻碍,但其机制尚不清楚。在全基因组范围内鉴定它作用的靶基因将有助于了解其作用分子机制。在本论文中我们用ChIP-Seq技术在全基因组范围鉴定了K562细胞中EGR1结合的DNA位点。我们对ChIP技术进行条件摸索和优化,获得了高度特异的捕获产物,为高通量测序提供高质量模板;采用SOLID测序系统进行ChIP-Seq测序,从所得到的ChIP-Seq数据中共得到了3.67M唯一匹配到基因组上的序列;对ChIP-Seq的数据分析流程进行了优化,实现了ChIP-Seq结果的可视化;通过数据分析,我们从EGR1ChIP-Seq数据里总共鉴定了13703个富集峰,其中11595个在TSS和TES位点5kb以内,约占84.6%;由于一个基因内或附近常有多个结合位点,合并上述11595个峰后鉴定出3602个基因。与EGR1作为转录因子调节转录的功能一致,我们发现有5162个富集峰位于TSS上游和下游1kb,占整个峰数目的37.7%。通过MEME-ChIP软件我们用鉴定的富集峰里的序列计算得到的EGR1结合Motif(GcGgGGGcGg,E-value:2.4e-80)和已报道的高度一致。在ChIP-PCR验证实验中,30个中有29个候选位点被证实是结合有EGR1的。将靶基因按分子功能分类后,我们发现ChIP-Seq鉴定出的EGR1最多的靶基因是转录因子(共477个),其中有62个是ZNF家族成员。除了对EGR1的常规编码基因靶点的研究,我们还对其在非编码RNA(lncRNA)上的靶点进行了研究。在14,880个注释的长链非编码lncRNA中,570个lncRNA的附近(TSS和TSE的5000bp以内)有EGR1的结合富集峰。其中240个结合在lncRNA的TSS1000bp以内。根据microRNA注释信息,我们检查了在microRNA转录起始位点1kb以内的富集峰,发现有38个EGR1富集峰位于microRNA的TSS1kb以内。这些结果表明EGR1可能调控的靶点类型十分丰富。我们还比较了PMA处理前后K562细胞中EGR1结合基因的表达变化。结果表明有4428个基因的表达变化了2倍以上,其中有2796在PMA处理后表达发生了上调,而有1632个基因的表达发生了下调。其中509个(18.2%)表达上调的基因和121个(7.4%)表达下调基因能在EGR1ChIP-Seq靶基因表中找到。我们的研究揭示在PMA诱导的K562细胞分化过程中EGR1及众多的EGR1的靶基因的表达发生了变化,说明EGR1很有可能是这一过程的关键调控因子。总之,我们用ChIP-Seq技术鉴定出上千个EGR1新的靶点,这些靶基因不但涉及到转录因子而且还有上百个非编码RNA。该研究提示EGR1转录调控的复杂性,为深入了解EGR1作用机制和造血细胞分化的分子机制提供了新的线索。 以前关于人类遗传重组的研究主要集中在家族谱系研究、LD-群体遗传为基础的研究以及以局部的精子基因组分析为基础的研究。家族谱系研究可以直接在全基因组范围内鉴定重组事件,但主要的缺点是每个家庭的后代个体数目有限,无法直接比较个体之间重组的差异。LD-为基础的方法可以提供一个全基因组群体遗传图谱,这种方法实际上测定的是“历史上”的重组事件,是一种间接的方法;同样它也无法比较重组率的个体差异。以等位基因特异性PCR(Allele-PCR)为基础的精子分析只能集中在某些预选的特定区域,很难扩展到全基因组水平。所以在全基因范围内直接基于大量子代DNA的重组研究还很少。我们尝试使用单精子全基因组测序为基础的分析来剖析人类遗传重组。这种方法的优点首先是可以从一个个体得到几乎无限数量的精子,不受到家族谱系研究中子代个数的限制;并且,精子基因组是单倍体,我们可以直接了解单倍体序列信息以及重组事件。然而,从单细胞水平实验技术角度来解析人类生殖细胞全基因组范围内的重组事件仍然是一个巨大的挑战。首先,由于精子是单倍体,只有一个拷贝的基因组,从而在一定程度上影响单细胞基因组扩增的灵敏度、覆盖度以及测序的均匀性;其次,精子的基因组被紧密地包裹在细胞核中,这增加了让DNA充分从细胞核释放的难度;第三,在DNA扩增、测序和比对过程中产生的潜在错误会干扰正确的SNP鉴定;最后,追踪全基因组范围内的重组事件需要鉴定数百或数千的精子细胞DNA分子,需要对大量的精子进行测序,在实验上它是费时费力的,同时需要巨大的测序成本。因此,本研究的主要目标是建立高效的高通量单精子细胞测序实验流程和分析流程。其实验流程是用流式细胞仪将单个精子细胞收集到96孔板中,然后用碱裂解单细胞;通过多重置换扩增(MDA)扩增单精子基因组DNA。获得扩增的基因组DNA后,用Illumina标准末端配对(paired-end)测序文库制备方法进行测序文库制各。根据在不同条件下测序结果,我们比较了不同浓度引物以及不同的裂解条件对扩增效率及均一性的影响。其次,我们建立了一套高通量的单细胞测序文库的制备流程。为了准确地确定SNP位点以及遗传重组位点的鉴定,我们建立了一套完整的单细胞基因分型(genotype)分析流程。最后为了说明实验流程和分析流程的质量,我们对5个单精子细胞的基因组进行深度测序分析并成功地鉴定了140个潜在的重组位点(crossover)。研究结果表明,该单精子细胞测序流程是成功的,为全基因组范围内分析重组事件提供了坚实的平台。