论文部分内容阅读
基因组包含了物种全部的遗传信息,是人们了解和改造生物的基础。因此,基因组测序是生物学研究中一项基础而又十分重要的工作。作为地球上种类最多的动物种群,昆虫对人类生活有着十分重要的影响,人们对昆虫基因组序列的需求越来越迫切。随着测序技术进步,测序成本快速下降、测序通量急速提高,昆虫基因组测序越来越普遍。本文建立和优化了昆虫基因组注释方法,对二化螟(Chilo suppressalis)和腰带长体茧蜂(Macrocentrus cingulum)两个农业昆虫基因组进行了组装、注释和分析。研究结果如下:一、昆虫基因组注释平台构建和优化昆虫杂合度高,增加了基因组拼接的难度,导致基因组注释质量不高。为此,本文构建了昆虫基因组注释平台Optimized Maker Based Insect Genome Annotation(OMIGA),优化和改进了昆虫基因组的注释方法。首先,建立了计算流程,从转录组数据中挖掘出结构完整的蛋白编码基因,用于从头预测软件的训练,明显提高了基因预测的准确性。其次,从RNA-seq数据中获取基因表达的证据,解决了表达证据不足的问题。再次,整合了同源比对、从头预测和基因表达等三方面的证据,获得高质量的蛋白编码基因集,保证了蛋白编码基因的注释质量。最后,设计和比较了4种不同的基因组注释策略,结果表明OMIGA注释结果最优。二、低N50二化螟基因组注释和分析二化螟属鳞翅目螟蛾科,是我国重要的水稻害虫。二化螟进行基因组测序,对研究二化螟的危害习性、抗药性机理以及生长发育规律等具有重要的意义。1、构建了190bp、380bp、500bp和700bp共4个小片断文库,测序获得20.44Gb数据,分别利用SOAPdenovo, SOAPdenovo2和AbySS等三个软件进行了基因组组装,最优结果是scaffold N50为5.2 Kb。17-mer分析表明,二化螟基因组GC含量为35.78%,大小为824 Mb,杂合度为1.5%,为高杂合度基因组。2、CEGMA分析表明,该基因组虽然N50偏低,但含有76.6%的蛋白编码基因,其中48%具有全长。利用OMIGA平台对低N50二化螟基因组进行了注释,发现10,211个蛋白编码基因,其中9,720个基因在家蚕中具有同源基因,5,651个蛋白基因的上游能够预测到可靠的启动子。3、发现了1,342选择性剪接事件,涉及1,167个基因,发现选择性剪接的基因比例为11.4%,明显低于果蝇(-70%),可能与二化螟基因组拼接长度偏低,转录组数据不够丰富有关。其中,42.4%为3’端可变剪接,25.4%为5’端可变剪接,17.8%为外显子跳跃,14.4%为内含子保留。4、利用实验室早期测序获得的小RNA文库,采用miRDeep2软件,预测获得了262个微小RNA,其中45个为新基因,217个为保守的微小RNA,表明低N50基因组在非编码RNA基因预测中可发挥重要的作用。5、预测发现了126个细胞色素P450基因(cytochrome P450, CYP),数量与赤拟谷盗相似(135个CYP),多于家蚕(82个)和帝王蝶(75个)。发现了和抗性相关的CYP314A1、CYP4M7基因。6、发现了29个气味结合蛋白基因(OBP)、12个化学感受蛋白基因(CSP)以及主要的RNAi通路核心基因(AGO, Aubergine, piwi, exp-5, PARP, dicer-1, dicer-2和sid-1)。三、腰带长体茧蜂基因组组装、注释和分析腰带长体茧蜂属膜翅目姬蜂总科茧蜂科,具有多胚发育特征,专一性寄生亚洲玉米螟(Ostrinia furnacalis),被大量用于玉米螟的生物防治。基因组测序可为深入了解寄生蜂的寄生行为、多胚发育特性及生物防治提供重要的参考。1、构建了180bp、500bp、800bp三个小片段文库和一个8Kb大片段文库,总共获得了103.67Gb的数据。使用contig组装、scaffold构建和补洞填充等策略对腰带长体茧蜂基因组进行了拼接,获得132Mb基因组序列,contig的N50为64Kb,scaffold的N50为192Kb。CEGMA评估表明,该基因组包含了99%以上的基因,表明拼接完整性很高。2、以500bp滑动窗在基因组上进行GC含量分析,发现两种寄生蜂的分布模式相似,但与蜜蜂明显不同。腰带长体茧蜂的重复序列占基因组的24.9%,丽蝇蛹集金小蜂占42.1%,蜜蜂占13.6%。3、预测发现了12,593个蛋白编码基因。腰带长体茧蜂基因的平均外显子数量为4.66、平均内含子长度为473 bp,比丽蝇蛹集金小蜂和意大利蜜蜂小,而平均外显子却更长,这种“紧凑”的基因结构可能是腰带长体茧蜂基因组小的原因之一。对15个物种(其中13个为昆虫)的直系同源基因开展进化分析,表明:1)膜翅目昆虫的分化速度介于双翅目和鳞翅目之间;2)膜翅目锥尾组的分化速度比针尾组更快;3)膜翅目姬蜂总科比小蜂总科更接近针尾组的蜜蜂科。4、发现了9个OBP基因、82个OR基因、5个CSP基因、26个G-蛋白偶联受体基因、33个离子型受体基因,33个CYP基因、9个GST基因、28个羧酸酯酶基因。腰带长体茧蜂的OBP、OR、CSP和P450基因数量明显比丽蝇蛹集金小蜂少,可能因为腰带长体茧蜂是专一性寄生昆虫,而金小蜂是非专一寄生昆虫有关。5、识别了21种毒素蛋白,比金小蜂(71种)和蜜蜂(27种)都少。茧蜂和金小蜂之间毒素蛋白的序列相似性更高,3种蜂均具有各自特异的毒素蛋白。6、识别了dsx、ix、msl-3、dpn、mle、emc、mof、run、sc、Trl、Tra、Tra2等与性别决定相关的基因。开a基因可能是膜翅目昆虫特有的基因,在膜翅目昆虫性别决定过程中发挥重要作用。7、腰带长体茧蜂采用免疫逃避机制躲避寄主的免疫攻击。多聚糖生物合成与代谢通路被认为与免疫逃避机制相关。分析表明,蜜蜂和果蝇缺失了多聚糖降解通路上的lacZ基因。腰带长体茧蜂具有E3.2.1.24、AGA、FUT13、FNG、OGT等基因,为研究寄生蜂免疫逃避提供了重要的线索。8、腰带长体茧蜂具有多胚发育现象。分析表明,细胞粘连分子通路上的integrin-β基因出现了扩增,具有两个拷贝,该基因已被证实能调控多胚发育。通过对不同发育阶段基因的表达量分析,发现在粘着连接通路上的SMAd2 3基因,紧密连接通路上的SYMPK、KRAS、EXOC4、ACTB_G1以及gap junction通路上的HRAS、TUBA、TUBB、 PRKG等基因在卵期特异性地高表达,可能参与了多胚发育调控。