论文部分内容阅读
野桑蚕(Bombyx mandarina)属于昆虫纲鳞翅目蚕蛾科,又称野蚕,被广泛认为是家蚕(Bombyx mori)的祖先。人们为了提高丝的产量与品质,驯化了野桑蚕至少5000年,从而获得家蚕,两者之间出现了许多明显差异,包括幼虫体型的大小,体色的变化,茧的大小与丝的质量的改变,免疫能力的下降以及成虫飞行能力的丧失与产卵行为的变化等等。因此,野桑蚕和家蚕已经成为研究物种驯化的一对理想模型。随着二代测序技术的发展以及de novo组装策略的出现,使研究无参考基因组物种的转录组成为可能。本研究利用Illumina Hiseq2000测序平台研究野桑蚕转录组,试图通过分析正向选择基因来从转录组水平探索家蚕驯化机制。这些数据不仅作为分析家蚕驯化机制有效途径,同时还为今后的野桑蚕基因组研究提供参考。基于此,本研究对野桑蚕中部丝腺(MSG)及后部丝腺(PSG)转录组进行测序,通过分析获得如下结果:1、野桑蚕转录组测序与de novo组装及SNP鉴定本研究分离并收集到单个野桑蚕末龄幼虫个体的两个组织:MSG和PSG,分别提取总RNA并构建转录组文库,通过转录组测序,我们总共获得120,381,200条paired-end reads的原始数据,经过过滤接头、低质量序列以及rRNA序列后,得到总计100,004,078条高质量的干净reads,占原始数据的83.07%,GC百分比为46.50%。通过de novo组装,得到总共50,773条转录本(transcripts),其中转录本N50长度为1764 bp,平均长度为941.62 bp。鉴定到总计33,759个unigene,其中unigene N50长度为1437 bp,平均长度为762.20 bp。将unigene分别与不同蛋白质数据库进行比对进行注释,共有12,805个在Nr库中有注释,8273个在Pfam数据库中得到注释,在Swiss-Prot蛋白数据库中共有9093个unigene拥有注释。而在对umgene的功能注释中,我们从GO、KEGG和COG数据库鉴定分别到9571、5893和6245个unigene。Unigene的注释情况表明组装效果良好,为后续分析奠定基础。此外,我们总共鉴定了32,297个单核苷酸多态性(SNP)以及361个插入缺失(INDEL),显示了野桑蚕较高的杂合性。2、野桑蚕转录组表达谱分析本研究对MSG和PSG转录组数据进行了表达谱分析,总共鉴定到1308个有显著差异表达的unigene,其中883个在MSG上调表达,425个在PSG上调表达。我们发现有三种丝胶基因(sericin 1, sericin 2,和sericin 3)在MSG特异表达,而有三种丝素基因(fibroin-H, fibroin-L,和fibroin/P25)则在PSG特异表达,其他丝蛋白基因特异表达情况也均与家蚕相同。此外,通过比较野桑蚕与家蚕各丝蛋白基因蛋白序列,我们发现丝素轻链的氨基酸相似度为99.2%,丝素/P25则为99.0%,两者均有2个位点发生氨基酸替换;而在丝胶蛋白中,丝胶1除去52个氨基酸的gap外,氨基酸相似度达到98.0%,存在13处氨基酸替换;丝胶2则有多达477个氨基酸gap,余下氨基酸相似度为98.7%,有8处氨基酸替换;野桑蚕丝胶3蛋白比家蚕在首端多出13个氨基酸,除此以外的氨基酸相似度为91.8%,共有12处氨基酸替换。这表明丝素轻链与丝素/P25蛋白序列比较保守,丝胶蛋白的变化则要大一些,除保守区域外具有不同程度的氨基酸插入与缺失。而对fibrohexamerin蛋白的进化树分析表明,该蛋白很可能从驯化以前的野桑蚕时期就已经有多个基因。3、野桑蚕正向选择基因鉴定及功能分析本研究通过与家蚕p50/Dazao基因集比较,总共鉴定到5295对潜在的直系同源基因,通过去除旁系同源基因等,我们总共鉴定了2806对同时拥有非同义替换(Ka)和同义替换(Ks)的直系同源基因。利用Ka/Ks分析法,我们发现了400对直系同源基因已经经历或正在经历正向选择,其中有83对已经经历正向选择,而有317对则是正在经历正向选择。利用KEGG富集分析方法对上述正向选择基因进行功能分析,试图探究与驯化相关的通路及其功能。上述400个正向选择的unigene中共有168可被KEGG注释,并且分布在126个KEGG通路中。通过KEGG富集分析,共有3个通路被富集到,分别为糖胺聚糖生物合成—硫酸软骨素/硫酸皮肤素通路、视黄酸—可诱导基因I (RIG-I)受体信号通路以及昼夜节律通路,可能与免疫和时钟节律相关,影响着家蚕的驯化。