论文部分内容阅读
本文的目的是证明与传统的二代短读长测序技术相比,使用三代长读长测序与二代短读长测序技术的结合在小鼠早期胚胎转录组学研究方面的优势。基于这种优势识别先前未被注释的基因、同源异构体、可变剪接以及等位基因特异的转录本和可变剪接,生成一个更加全面的小鼠早期胚胎高分辨率的转录组注释。同时探索新注释的资源在早期胚胎各个阶段的动态变化,研究这种变化背后相关的功能元件与调控机理,为深入的探究小鼠早期胚胎发育机制奠定基础。我们收集了小鼠早期胚胎七个阶段(精子、卵母、1细胞、2细胞、4细胞、8细胞和囊胚)的样本,并分别使用二代和三代测序技术对其进行了RNA-seq测序,随后对这两个数据集进行了生物信息学分析。我们利用Pac Bio平台的Iso-seq3流程在三代测序数据上识别了全长转录本,并且使用Cuffcompare与GENCODE注释进行比较,得到先前未被注释的新基因和同源异构体。随后使用blastp和hummer将新识别蛋白编码转录本与数据库进行比对,对其进行同源性分析,并使用big Wig Average Over Bed计算新识别的非编码转录本的phylo P和phast Cons分数。使用salmon等工具完成了二代测序数据对长读长转录本的定量。同时我们使用PCR扩增和Sanger测序对新识别的基因和转录本进行了实验验证。我们使用SUPPA2在分别两个数据集上识别了可变剪接事件和差异可变剪接事件。借助SNPsplit和GMAP以及STAR等工具识别了等位基因特异的转录本。利用大量生物信息学工具和我们自己编写的python和R脚本的组合,完成了小鼠早期胚胎二代与三代转录组测序数据的分析。我们使用二代测序(Illunima)与三代测序(Pac Bio)技术的结合揭示了小鼠早期胚胎转录组的复杂性与新颖性,在先前未被注释的区域识别了2280个新转录本,并且在注释基因区域识别了6289个新的同源异构体。随后使用二代测序数据分别对注释的和新识别的全长转录本进行定量,同时也描绘了全长转录本在七个阶段的动态表达趋势,我们发现注释的和新识别的全长转录本都在早期胚胎中大量表达,且具有相似的表达规律。通过对新识别的蛋白编码的转录本进行同源性分析发现绝大部分的转录本能在数据库中找到其对应的同源产物。我们还对新识别的非编码的转录本进行了保守性分析,结果表明大量的转录本在物种间具有高度的保守性。接着利用已发表的H3K4me3(histone H3 lysine 4 trimethylation)数据和CAGE(cap analysis of gene expression)数据对新识别的转录本进行了验证,进一步得到了高置信度的转录本的数据集。我们还比较了仅使用二代数据和二代数据结合三代数据在识别新转录本方面的潜力和转录本定量方面的差异,结果表明,二代数据加三代数据的结果明显优于仅使用二代数据。并且由于三代数据的测序深度低于二代数据,二代数据也能识别出一部分三代数据所不能识别的转录本。随后利用二代与三代测序数据识别了可变剪接与差异可变剪接事件,结果显示,与二代测序技术相比,三代测序数据能够识别更高比例的未被注释的新可变剪接事件。接着探讨了可变剪接与差异可变剪接在早期胚胎各个阶段的动态变化,发现七种类型的可变剪接与差异可变剪接事件的变化都非常剧烈,从而使得转录本也急剧变化。我们识别出一个属于Kdm4dl基因的新同源异构体,和一个命名为XLOC_004958的新的非编码基因,借助实验的方法发现Kdm4dl的新同源异构体具有改良的m RNA阅读框,并且Kdm4dl或XLOC_004958的缺失会导致囊胚发育异常。通过比较二代测序数据与三代测序数据识别的等位基因特异的转录本,发现在七个阶段中有50-94%的等位基因特异的转录本仅能被三代数据识别而不能被二代数据识别。我们也在等位基因特异的转录本的基础上识别了等位基因特异的可变剪接事件和差异可变剪接事件,平均每个阶段能鉴别出230个等位基因特异的可变剪接事件和26个差异可变剪接事件。我们的分析证明,与仅使用二代测序数据相比,三代测序结合二代测序能够识别更多的新转录本、可变剪接事件以及等位基因特异的转录本和可变剪接,且其能更加精准的对转录组进行定量。利用三代测序结合二代测序的优势,我们提供了一个包含等位基因特异的转录本和剪接事件在内的高分辨率、更高精度的转录组,为更深入探究小鼠早期胚胎发育机制奠定了基础。此外,早期胚胎的转录组存在剧烈的动态变化,这一现象能为后续深入研究早期胚胎调控机理提供潜在的方向。