论文部分内容阅读
重复序列是真核生物基因组的重要组成成分,根据其序列特征及在基因组中的存在形式,可以进一步分为串联重复、片段重复和散在重复。其中,散在重复大多起源于转座子。根据转座介质的不同,转座子又可分为逆转录转座子和DNA转座子。转座子可以在基因组中移动并插入到新的染色体位点,此过程常伴随着其拷贝数的增加,它们是真核生物基因组的重要组成成分,如占人类基因组的45%,黑腹果蝇(Drosophila melanogaster)基因组的22%,玉米(Zea mays)基因组的80%以上。转座子的转座和扩增对基因的进化和基因组的稳定具有重要影响,在染色体结构、基因组大小、基因组重排、新基因生成和基因结构与调控等方面扮演着重要的角色,同时由于其序列的重复性及部分转座子包含编码区,它们对基因组测序、组装和注释也是巨大的挑战。与其他类型的重复序列相比,转座子的结构和分类更为复杂多样,使得对转座子的鉴定和分类更为复杂和困难。一般地,真核生物转座子的鉴定、分类和注释分为3个步骤:(1)重复序列库的构建;(2)重复序列的校正和分类;(3)基因组注释。近年来,国内外科学家已开发出多种软件来辅助进行以上3个步骤。但这些软件各有利弊,到目前为止还没有一款软件能够单独完成全基因组中所有转座子的精确鉴定、分类和注释。因此,需要把多种方法结合起来使用来实现全基因组范围内转座子的精确鉴定、分类和注释。家蚕(Bombyx mori)是一种重要的经济昆虫,由其形成的蚕丝业是我国农业经济中的重要组成部分。家蚕拥有丰富的品系资源及突变体,是开展遗传发育和分子生物学研究的良好材料,是鳞翅目的模式生物之一。家蚕基因组框架图和精细图的发布,极大地促进了家蚕基因组学研究。研究表明,转座子序列大约占整个家蚕基因组的35%,高于黑腹果蝇(D. melanogaster)的22%,冈比亚按蚊(Anopheles gambiae)的16%,低于埃及伊蚊(Aedes aegypti)的47%,且转座子类别丰富多样,因此家蚕又是研究昆虫转座子很好的模式生物。转座子是家蚕基因组的重要组成部分,其对家蚕基因组的组成、进化和基因表达调控等具有重要影响。因此,家蚕基因组中转座子的精确鉴定、分类和注释具有重要意义。本研究采用多种方法对家蚕中的转座子进行了系统鉴定和分类,并构建了家蚕转座子数据库BmTEdb。主要的研究内容及结果如下:1.家蚕转座子数据库BmTEdb的构建为了更好地理解转座子在家蚕驯化中及家蚕基因组组成、结构和进化上所起的作用,采用从头(de novo)预测、基于同源性预测和基于结构预测等多种方法对家蚕中的转座子进行了系统的鉴定,并整合Repbase, NCBI核酸数据库和相关文献中报道的家蚕转座子。对鉴定出的家蚕转座子,首先去除冗余序列及假阳性,随后基于同源性和结构特征及相关软件进行了分类。采用Linux, Apache, MySQL和PERL成功构建了家蚕转座子数据库BmTEdb,为用户提供浏览、搜索、查询和序列比对分析等服务。家蚕转座子数据库BmTEdb的构建将在一定程度上促进家蚕基因组学研究,并为后续研究家蚕转座子的功能及在家蚕驯化过程中所起的作用奠定了一定的基础。2.家蚕LTR逆转录转座子的鉴定、分类及系统发育分析采用基于结构预测和同源性搜索相结合的方法,在家蚕基因组中共鉴定出了38个长末端重复(Long terminal repeat, LTR)逆转录转座子家族,序列长度占整个基因组的0.64%,远小于先前预测的11.8%,其中有6个家族为新发现。38个家族中,26个家族有表达序列标签(Expression sequence tag, EST)证据,表明这些家族具有潜在的活性。对有EST证据的6个家族和没有EST证据的5个家族用RT-PCR进行了组织表达谱实验,结果表明,这11个家族在一些组织中有表达,这进一步证实了这些家族具有转录活性,基于此,我们推测家蚕中大部分的LTR逆转录转座子家族很可能具有潜在活性。对转座子的插入时间进行估计,结果表明绝大部分元件都是最近1百万年内插入到家蚕基因组中的。还比较了黑腹果蝇(D.melanogaster)、冈比亚按蚊(A. gambiae)和家蚕(B. mori)中Ty3/Gypsy超家族枝的差异,结果表明不同枝在不同昆虫中有着不同的扩张。家蚕中LTR逆转录转座子的鉴定和系统分析有助于我们理解逆转录转座子在昆虫进化中的作用。