论文部分内容阅读
斜纹夜蛾是世界上广泛分布的杂食性害虫,其寄主众多,给农业生产带来了极大的威胁。因此,如何有效地防治斜纹夜蛾成为科研工作者的研究重点。得益于测序技术和生物信息学技术的快速发展,通过研究斜纹夜蛾的基因组变异与环境适应性的关系,从而提出防治的方法成为新的研究方向。近年来,越来越多的证据表明,基因组变异对生物的进化和环境适应性有重要的影响。拷贝数变异(copy number variation),简称为CNV,是长度从1 Kb到数Mb范围内DNA序列拷贝数的变异,属于基因组变异的一种。与单核苷酸多态性相比,CNV因为覆盖的序列更长,因而对生物影响更加广泛,近年来,成为基因组变异和生物进化的热点研究方向。本研究通过采用3个国家14个地区的斜纹夜蛾基因组重测序数据和部分转录组数据,结合生物信息学和统计学等研究方法,在全基因组水平上检测了斜纹夜蛾的CNV发生情况:分析了其数目、长度和发生频率;对CNV相关基因进行了功能分析;研究了不同群体CNV与环境适应性的关系;探究了 CNV对基因表达水平的影响。本研究有助于了解斜纹夜蛾的全基因组拷贝数变异模式,同时也为斜纹夜蛾的基因组变异提供了更加丰富的内容,为了解斜纹夜蛾与环境适应性的关系以及斜纹夜蛾的防治提供了一定的思路。主要研究结果如下:1.斜纹夜蛾全基因组水平CNV的鉴定本研究采用来自3个国家(中国、日本、印度)的14个地区的斜纹夜蛾幼虫个体,提取其基因组,构建基因组重测序文库,然后上机测序。一共得到558.2 Gb的序列,测序平均深度为11.4X。经过低质量序列的过滤和比对到参考基因组等步骤,最后用CNVnator软件检测到CNV共3,976个,其中无重复的CNV为3,096个。对各样本CNV进行分析,发现大多数样本缺失型和重复型的CNV均少于200个,而且缺失型CNV多于重复型CNV。长度分析显示,印度样本德里、海德拉巴和日本样本冲绳岛的CNV覆盖基因组序列最长,占全部序列的81%。染色体分布图结果显示,中国地区的斜纹夜蛾CNV高频发生染色体为8号染色体,日本和印度为2号染色体。将所有样本中重叠超过1 bp的CNV合并成无重叠的CNV区域(CNVR),并构建了斜纹夜蛾全基因组CNVR分布图。CNVR的长度主要集中在5-500 Kb之间,54.6%的CNVR只存在于一个样本中,3.1%的CNVR在超过10个样本中同时存在。选取了 10个位于CNVR内的相关基因进行荧光定量PCR实验验证,结果有6个基因的成功率在67%以上。2.斜纹夜蛾CNV与环境适应性适应性进化往往通过基因组变异来实现。在昆虫中,已经有很多关于CNV与环境适应性的报道。为了研究斜纹夜蛾CNV对特定群体环境适应性的影响,我们首先根据CNVR是否在样本中存在构建了 0-1矩阵,然后根据此矩阵进行聚类分析,聚类结果显示14个样本被分为4个簇。进一步,我们依据聚类结果将这4个簇对应成4个群体,分别命名为group 1,group 2,group 3和group 4。然后采用了衡量CNV群体差异的统计量Vi,经计算得到了每个CNVR的Vi值。Vi值越大,说明该CNVR在进化中对特定群体的影响越大。为了筛选群体特异的CNVR,我们去除了只在一个样本中存在的CNVR,对剩下的717个CNVR的top 5%的Vi值进行分析,结果显示在4个群体中均存在的CNVR数目为0,19个CNVR在至少2个群体中存在。分别对每一个群体的CNVR相关基因进行功能注释,发现group 1中的基因多与解毒和免疫有关,group 2中的基因多与生长发育相关,group 3中的基因多与抗性相关,group 4中的基因多与受体有关。这一结果暗示不同群体的CNV与环境适应性不同。3.斜纹夜蛾CNV对基因表达的影响有研究报道,CNV与基因表达水平有关。因此,我们调查了斜纹夜蛾CNV对基因表达水平的具体影响。我们一共检测到了 5,527个与CNVR相关的基因,对这些基因进行了功能注释和富集分析,结果显示,被富集的基因多与斜纹夜蛾的生长发育相关,如调控细胞凋亡、基因沉默、代谢过程等。然后我们选取了不同组织、不同样本的斜纹夜蛾转录组测序(RNA-seq)数据来研究斜纹夜蛾CNV与基因表达的关系。使用Tophat 比对,再用Cufflinks软件计算每个基因的表达量,结果显示,在同一个样本的不同组织中,重复型CNV相关基因的表达量最高,缺失型CNV相关基因的表达量最低。我们又将发生CNV的样本和参考基因组样本的基因表达量进行了比较,发现两者有所差别。其中,CNV样本中的缺失型CNV相关基因和重复型CNV相关基因的表达量均低于参考基因组样本,未发生CNV区域的相关基因表达量在两样本之间无明显差异。进一步对两者进行差异表达分析,统计差异变化系数大于等于2的基因共有180个,差异变化系数大于等于4的基因共有29个。其中上调的有12个,下调的有17个。对上调基因进行功能注释,发现有P450,幼虫表皮蛋白等基因,对下调基因进行功能注释,发现有脂肪酶、羧肽酶等基因。这些显著变化的基因可以作为靶标进行下一步的功能分析。为了研究CNV影响基因表达的具体作用机制,我们对变化系数大于等于2的180个基因进行了分析,发现在gain类型的125个基因中,表达量随拷贝数的增加而上调的有58个基因,有67个基因的表达量随拷贝数的增加而下调。而在loss型的39个基因中,有23个基因的表达量随着拷贝数的减少而下调,有16个基因的表达量随着拷贝数的增加而上调。这些结果暗示,斜纹夜蛾CNV不仅仅通过拷贝数的剂量效应影响基因的表达,可能还通过影响转录调控或者更多更复杂的方式对基因的表达水平产生影响。