昆虫基因组注释方法改进及两种昆虫基因组分析

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jingcang_wu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组包含了物种全部的遗传信息,是人们了解和改造生物的基础。因此,基因组测序是生物学研究中一项基础而又十分重要的工作。作为地球上种类最多的动物种群,昆虫对人类生活有着十分重要的影响,人们对昆虫基因组序列的需求越来越迫切。随着测序技术进步,测序成本快速下降、测序通量急速提高,昆虫基因组测序越来越普遍。本文建立和优化了昆虫基因组注释方法,对二化螟(Chilo suppressalis)和腰带长体茧蜂(Macrocentrus cingulum)两个农业昆虫基因组进行了组装、注释和分析。研究结果如下:一、昆虫基因组注释平台构建和优化昆虫杂合度高,增加了基因组拼接的难度,导致基因组注释质量不高。为此,本文构建了昆虫基因组注释平台Optimized Maker Based Insect Genome Annotation(OMIGA),优化和改进了昆虫基因组的注释方法。首先,建立了计算流程,从转录组数据中挖掘出结构完整的蛋白编码基因,用于从头预测软件的训练,明显提高了基因预测的准确性。其次,从RNA-seq数据中获取基因表达的证据,解决了表达证据不足的问题。再次,整合了同源比对、从头预测和基因表达等三方面的证据,获得高质量的蛋白编码基因集,保证了蛋白编码基因的注释质量。最后,设计和比较了4种不同的基因组注释策略,结果表明OMIGA注释结果最优。二、低N50二化螟基因组注释和分析二化螟属鳞翅目螟蛾科,是我国重要的水稻害虫。二化螟进行基因组测序,对研究二化螟的危害习性、抗药性机理以及生长发育规律等具有重要的意义。1、构建了190bp、380bp、500bp和700bp共4个小片断文库,测序获得20.44Gb数据,分别利用SOAPdenovo, SOAPdenovo2和AbySS等三个软件进行了基因组组装,最优结果是scaffold N50为5.2 Kb。17-mer分析表明,二化螟基因组GC含量为35.78%,大小为824 Mb,杂合度为1.5%,为高杂合度基因组。2、CEGMA分析表明,该基因组虽然N50偏低,但含有76.6%的蛋白编码基因,其中48%具有全长。利用OMIGA平台对低N50二化螟基因组进行了注释,发现10,211个蛋白编码基因,其中9,720个基因在家蚕中具有同源基因,5,651个蛋白基因的上游能够预测到可靠的启动子。3、发现了1,342选择性剪接事件,涉及1,167个基因,发现选择性剪接的基因比例为11.4%,明显低于果蝇(-70%),可能与二化螟基因组拼接长度偏低,转录组数据不够丰富有关。其中,42.4%为3’端可变剪接,25.4%为5’端可变剪接,17.8%为外显子跳跃,14.4%为内含子保留。4、利用实验室早期测序获得的小RNA文库,采用miRDeep2软件,预测获得了262个微小RNA,其中45个为新基因,217个为保守的微小RNA,表明低N50基因组在非编码RNA基因预测中可发挥重要的作用。5、预测发现了126个细胞色素P450基因(cytochrome P450, CYP),数量与赤拟谷盗相似(135个CYP),多于家蚕(82个)和帝王蝶(75个)。发现了和抗性相关的CYP314A1、CYP4M7基因。6、发现了29个气味结合蛋白基因(OBP)、12个化学感受蛋白基因(CSP)以及主要的RNAi通路核心基因(AGO, Aubergine, piwi, exp-5, PARP, dicer-1, dicer-2和sid-1)。三、腰带长体茧蜂基因组组装、注释和分析腰带长体茧蜂属膜翅目姬蜂总科茧蜂科,具有多胚发育特征,专一性寄生亚洲玉米螟(Ostrinia furnacalis),被大量用于玉米螟的生物防治。基因组测序可为深入了解寄生蜂的寄生行为、多胚发育特性及生物防治提供重要的参考。1、构建了180bp、500bp、800bp三个小片段文库和一个8Kb大片段文库,总共获得了103.67Gb的数据。使用contig组装、scaffold构建和补洞填充等策略对腰带长体茧蜂基因组进行了拼接,获得132Mb基因组序列,contig的N50为64Kb,scaffold的N50为192Kb。CEGMA评估表明,该基因组包含了99%以上的基因,表明拼接完整性很高。2、以500bp滑动窗在基因组上进行GC含量分析,发现两种寄生蜂的分布模式相似,但与蜜蜂明显不同。腰带长体茧蜂的重复序列占基因组的24.9%,丽蝇蛹集金小蜂占42.1%,蜜蜂占13.6%。3、预测发现了12,593个蛋白编码基因。腰带长体茧蜂基因的平均外显子数量为4.66、平均内含子长度为473 bp,比丽蝇蛹集金小蜂和意大利蜜蜂小,而平均外显子却更长,这种“紧凑”的基因结构可能是腰带长体茧蜂基因组小的原因之一。对15个物种(其中13个为昆虫)的直系同源基因开展进化分析,表明:1)膜翅目昆虫的分化速度介于双翅目和鳞翅目之间;2)膜翅目锥尾组的分化速度比针尾组更快;3)膜翅目姬蜂总科比小蜂总科更接近针尾组的蜜蜂科。4、发现了9个OBP基因、82个OR基因、5个CSP基因、26个G-蛋白偶联受体基因、33个离子型受体基因,33个CYP基因、9个GST基因、28个羧酸酯酶基因。腰带长体茧蜂的OBP、OR、CSP和P450基因数量明显比丽蝇蛹集金小蜂少,可能因为腰带长体茧蜂是专一性寄生昆虫,而金小蜂是非专一寄生昆虫有关。5、识别了21种毒素蛋白,比金小蜂(71种)和蜜蜂(27种)都少。茧蜂和金小蜂之间毒素蛋白的序列相似性更高,3种蜂均具有各自特异的毒素蛋白。6、识别了dsx、ix、msl-3、dpn、mle、emc、mof、run、sc、Trl、Tra、Tra2等与性别决定相关的基因。开a基因可能是膜翅目昆虫特有的基因,在膜翅目昆虫性别决定过程中发挥重要作用。7、腰带长体茧蜂采用免疫逃避机制躲避寄主的免疫攻击。多聚糖生物合成与代谢通路被认为与免疫逃避机制相关。分析表明,蜜蜂和果蝇缺失了多聚糖降解通路上的lacZ基因。腰带长体茧蜂具有E3.2.1.24、AGA、FUT13、FNG、OGT等基因,为研究寄生蜂免疫逃避提供了重要的线索。8、腰带长体茧蜂具有多胚发育现象。分析表明,细胞粘连分子通路上的integrin-β基因出现了扩增,具有两个拷贝,该基因已被证实能调控多胚发育。通过对不同发育阶段基因的表达量分析,发现在粘着连接通路上的SMAd2 3基因,紧密连接通路上的SYMPK、KRAS、EXOC4、ACTB_G1以及gap junction通路上的HRAS、TUBA、TUBB、 PRKG等基因在卵期特异性地高表达,可能参与了多胚发育调控。
其他文献
目的分析煤矿井下采掘作业人员工作面生产性粉尘危害管理,加强煤矿作业场所生产性粉尘的防护措施,生产性粉尘会得到有效控制。方法通过仪器对井下各工作面进行测试,计算其短
传统刑法理论认为存在无被害人犯罪,这是由于该类型犯罪隐蔽性和形态的特殊性而产生的误读。从犯罪本质看,任何犯罪都是危害社会的行为,从危害国家、社会组织和个人的角度看就应
刻意曲解和误解是两种不同的语言现象,刻意曲解是语言使用者的一种语用策略,在网络笑话中被广泛运用形成语言的幽默效果。 Deliberate misinterpretation and misunderstand
由于无线电需求广泛,但是自然可用频谱有限,人们的研究关注在如何有效利用现有频谱。目前,频谱分配方式为静态方式,即通过时段和地理位置进行划分,以至于不能充分利用可用频
连谓句和兼语句的区分是语法研究的一个重点,是对一些特定形式句子的归属问题。连谓句和兼语句是两种容易混淆的句式,文章从概念、类型、特点等几个方面分析了这两种句式的区
1研究背景、意义定边油田目前油藏纵向叠合区域众多,大部分同步开发,目前合采井将近300口,有延6长8、长2长8等等层系合采。搞油田开发的都知道这么一个事实,那就是不同层系油
采用多重调谐质量阻尼器(MTMD)来控制大跨楼盖由于行人引起的竖向振动,已被工程实践证明为一种行之有效的减振方法。然而由于步行荷载的时空复杂性,采用有限元时程分析方法进行
根据川西卧龙地区岷江冷杉(Abies faxoniana)的年轮宽度资料,分析了该地区树木生长特征及对气候响应在最近53年(1956–2008年)的异质性特征。结果表明,在1956–1976年时段,树
维多利亚惊悚小说是英国19世纪伴随现实主义小说一道发展起来的一种小说类型,在大众文化语境下,该类型小说与正统的现实主义小说一样,具有文学的正向价值.然而,学术界对该类
对铁凝的长篇小说《玫瑰门》进行了解读。苏眉在艰难的成长过程中产生了自我分裂,企图凭借自我对话与自我审视弥合裂痕,完成心灵的成长。借助苏眉的自我分裂与自我对话,小说