飞蝗基因组测序组装及组学分析

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:genggeng07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
飞蝗(Locusta migratoria)是一种在世界范围内广泛分布的农业害虫。在中国历史上,蝗灾和旱灾、水灾并称为三大自然灾害。目前,蝗灾的控制还主要依赖于化学农药,这对生态环境以及人类健康都是不利的。蝗虫所在的直翅目在进化上比较特殊,在已发表基因组测序的昆虫中处于昆虫纲的根部,是不完全变态昆虫的代表。而在基因组层面上解析完全变态和不完全变态昆虫之间的差异的工作还没有进行过。蝗虫也是一种重要的模式生物,特别是在嗅觉、视觉和运动神经生理领域。蝗虫的两型转变是一种典型的表型可塑性,并且研究较为深入,这对我们理解基因型和表型在外部环境作用下的作用机制很有帮助。遗憾的是,蝗虫的基因组非常大,使得这些研究受到很大的阻碍。  随着下一代测序技术的飞速发展,各种测序平台频频升级,测序产出量的增长和测序成本价格下降已经远远超出了摩尔定律。发展至今,测序已经成为普通实验室都可以接受的一种常用分析手段。测序方法的持续改进,促进了测序在各个领域的广泛应用,同时也深刻的影响了当前生物领域的科研进程,并即将进一步影响我们每个人的日常生活。我们已知飞蝗基因组的大小为~6.3Gb,测序技术和分析手段的不断更新,以及计算机硬件的提高,使飞蝗基因组的测序成为现实。  本论文中,我们首先对一个经过8代近交的雌性个体进行了全基因组鸟枪法solexa(HiSeq2000)测序,数据过滤后覆盖基因组114x。Kmer分析显示飞蝗的基因组大小为6.3Gb,这和流式细胞仪的检测结果是一致的。使用SOAPdenovo进行基因组组装。经过对基因组组装结果的一系列调整之后,组装的基因组大小是6.5 Gb,这比Kmer分析以及流式细胞仪估计的大小偏大了200Mb。这可能是由于杂和区域的冗余组装以及对gap长度的过度估计导致的。Contig和scaffoldN50分别是9.3 Kb和320.3 Kb。蝗虫基因组是目前已知组装出来的最大的基因组。我们随后通过一系列的方法对基因组进行了评估。71个全长cDNA序列平均能被覆盖95.7%;78.64%的转录组测序数据(24个样品)都能比回组装的序列;在真核生物中高度保守的248个基因中的246(99.19%)都能被组装的序列覆盖90%以上;94%的EST序列的90%以上区域都能被基因组序列覆盖,这些评估结果说明基因组序列对基因区的覆盖比较完整。我们同时用solexa对9个BAC进行了深度测序组装,把这些组装的BAC(长度>50kb)比回基因组,95%的区域都能被组装的序列覆盖;使用20x用来组装基因组的reads再重新比回组装的基因组序列,发现94%的reads都能比上。这些结果说明组装的结果的完整性是比较好的。利用基因组测序的reads重比回基因组,我们检查了基因组序列的覆盖深度分布,发现在平均深度一半的位置有一个峰,这可能是由于杂和部分组装冗余造成的。我们同时考察了重复序列、基因区、旁系同源基因区的覆盖深度,并与理论possion分布相比较,发现深度减半的峰主要是由重复序列造成的,而基因区以及旁系同源基因区的覆盖深度和理论分布比较接近,这说明深度减半区域对基因的影响是比较小的,能保证我们后面的生物学分析的结果的可靠性。  在获得飞蝗基因组之后,我们对基因组进行了注释,主要包括蛋白编码基因的结构注释,功能注释,重复序列注释。由于蝗虫物种和其它已测序昆虫物种亲缘关系较远,蛋白序列相似性较低,造成很多基因结构注释不完整。我们整合了同源预测(10个已测序节肢动物和人)、从头预测、RNA-seq注释的基因结构、RNA-seq比回基因组的覆盖深度和基因组组装用的reads比回基因组后的深度分布信息。所有这些信息都输入到IGV可视化工具中,和我们注释的基因比较,进行手工矫正。我们共完成了~2000个基因的手工校正,主要是一些生物学功能相关基因,这极大的提高了我们基因集的质量,保证了生物学分析结果的准确性。最终,我们获得了17307个蛋白编码基因。通过和其它物种进行比较,飞蝗基因集的各种参数都是比较正常的。这些基因中的93.8%都至少有EST/RNA-seq,同源数据支持。其中有12963(74.9%)个基因至少有一个GO、IPR、KEGG、NR、SwissProt或者TrEMBL注释。重复序列注释发现60%的区域都是重复序列,这个比例是远远高于其它昆虫的,说明飞蝗基因组增大的部分主要是重复序列。  在获得基因组和基因集之后,基于此,我们对飞蝗的两型从转录组和甲基化两个方面进行了深入研究。在转录组方面,我们对群居型蝗虫做了散居化处理,对散居型蝗虫做了群居化处理。分别在0,4,8,16和32小时时间点取了脑部的样品,对这些脑部样品分别进行了转录组测序。通过对这些数据进行表达量计算,差异表达基因分析,可变剪切分析,我们发现,有4893个基因在两个处理过程中发生了差异表达,这些基因分布在很多生物学过程中,说明两型处理广泛地影响了蝗虫脑部的基因表达。我们对这两个过程的差异基因进行了富集分析,发现在飞蝗群居化过程中,突触传导、能量代谢通路的基因高表达,而细胞器运动、氧化还原以及抗氧化相关基因表达下调。这些基因的表达模式在散居化过程中表现出相反的趋势。这说明群居化过程触发了神经活性,但是同时抑制了脑部的抗氧化反应,也暗示着氧化应激信号调控神经可塑性可能在飞蝗型变过程中发挥重要的作用。  甲基化方面,我们首先对飞蝗的全身样品进行了基于RRBS的甲基化测序,结果表明,飞蝗基因组中是存在甲基化的,RRBS测到区域的CG甲基化水平在6.4%。同时,我们发现,基因区的甲基化水平较高,内含子和外显子区无差异,重复序列和非重复序列间也无显著差异。对两型脑部的RRBS甲基化测序发现了上述同样的结果。通过对两型脑部样品的比较分析,我们找到了206个差异甲基化基因。对这些基因进行富集后发现,他们主要和染色体活动有关,比如染色体组织,DNA构象改变,DNA代谢过程以及核小体组装。这说明两型差异可能和DNA甲基化以及染色质重构在调控神经发育和可塑性方面有关。  总体来说,我们成功测序组装了目前第一个最大的基因组,并在此基础上进行了转录组和甲基化的分析,为深入研究蝗虫两型转变机制提供了新的视角与数据基础。
其他文献
金融的本质是不同主体之间通过价格发现等来实现跨时空的价值交换。金融行业专家霍学文在《新金融,新生态》一书中曾用一个简洁的公司表达了金融的基本要素:金融=制度 技术 信息。其中制度是基础,技术是动力,信息是载体。创新可以在这三个层面展开:制度方面,互联网金融的跨界性和多变性在倒逼监管制度创新,甚至改变我们熟悉的金融规则,如比特币重新定义货币;技术方面,移动互联,云计算和大数据的运用在推动金融更加高效
本文通过对新形势背景下销售技巧开展分析,明确了同意客户感受、重视把握关键词、明确客户问题,解决客户疑问、促使客户了解自己异议背后的动机、为客户提供充足表达自身想法
河流营养污染物导致的硅藻水华暴发已成为生命科学界和社会公众广泛关注的热点问题之一。目前,国内外对自然水体中蓝藻水华的研究较多,而对江河硅藻水华暴发机制的研究却比较滞
金融扶贫是以金融为基础,通过发挥社会合力作用,进行输血扶贫与造血扶贫有机结合,打赢脱贫攻坚战,助力全面建成小康社会目标有效实现的重要手段.基于此本文以金融扶贫为研究
随着以互联网为代表的网络信息技术的迅速发展,人类社会已迈入了复杂网络时代。十多年来,复杂网络作为一个跨学科的新兴领域得到了迅速的发展。在复杂网络这一研究领域中,一
随着人们经济水平的增长和电子商务的不断发展,“网购”已成为绝大部分人购买东西必不可少的一种方式.“网购”的出现让许多商家从线下服务转移到了线上服务.目前大多数网店
全球变化表现在氮沉降增加和降水格局变化等诸多方面,极大地干预了森林生态系统碳氮循环过程。细根(直径≤2mm)是陆地生态系统重要的源和汇,其周转在很大程度上受土壤水分以及
为提高“山铺子蜂蜜”的产品销量,本文从网络品牌推广存在的各方面问题,以及从宏观农产品市场的品牌效应进行分析,结合当下的发展以及流行模式,阐述了“山铺子蜂蜜”在品牌建
本文首先对苍溪县天螺村红心猕猴桃网络营销中存在网络营销观念和意识淡薄;网络营销方式陈旧落后;天螺村果农没有品牌意识,苍溪县天螺村红心猕猴桃在全国知名度不高;天螺村果
自从2007年,Siviloglou和Christodoulides等人利用薛定谔方程以及光学近似的波动方程,第一次预测出有限能量艾里光束,论证了其具有保持无衍射长距离的传输的特性。此后,有限能量