论文部分内容阅读
反转录转座子(Retrotransposons)是真核生物基因组中普遍存在的一类可移动的遗传因子,它们以RNA作为中间媒介,在基因组中不断自我复制,不断增长自己的拷贝数,在高等植物中,基因组的很大部分由反转录转座子构成。它们的活动为植物基因组的结构和功能进化提供了重要的机制,影响着基因的调控、变异,引起新基因的起源,研究LTR反转录转座子对理解植物的功能和进化有非常重要的意义。随着DNA测序技术的不断发展,大量的生物序列呈现在我们的面前,从这些数据中快速有效的寻找反转录转座子,并对新的基因组进行注释就显得非常的必要。植物中基因中的反转录转座子大部分属于LTR反转录转座子,其标准的结构使得我们可以方便的利用计算机找到这类元件。我们以LTR_FINDER程序为预测LTR反转录转座子的主要工具,我们建立了一套从基因组序列中预测、分类、并对全基因组LTR反转录转座子进行注释的流程。利用这套流程,我们在葡萄基因组上的LTR反转录转座子进行预测、分析。我们在葡萄基因组494M序列中找到2686个全长序列,利用序列的相似性,它们被分为168个家族,根据其中编码部分结构域的顺序,其中33个家族为Gypsy家族,包括810条全长序列,114个家族归为Copia家族,包含全长序列1475条,剩余的序列则缺少部分结构域,它们未被归为上述两类。通过家族代表序列与全基因组的BLASTN收索,我们找到总拷贝数不少于32,000份,与LTR反转录转座子相关的序列至少占到葡萄基因组序列总量的16.07%。LTR反转录转座子的起源非常古老,被子植物中的各主要分支在被子植物分化前就已经存在,并广泛存在于现存的植物基因组中。利用蛋白功能域的反转录转座酶和DNA整合酶部分的氨基酸序列进行系统进化分析结果表明,被子植物中常见的LTR反转录转座子类型,在葡萄基因组中都存在相应的支系,其中Gypsy可分为两个大的分支,一支为Tat/Athila分支,该分支通常序列比较长,在葡萄基因组中也是最活跃的,大部分都有非常高的拷贝数,另一主要分支在编码区3’包含Chrom结构域,该分支的成员拷贝数一般都相对较低;Copia家族中的系统发生关系并不如Gypsy清晰,这里我们将整个Copia家族分成了9个支系。该结果支持了被子植物中的LTR反转录转座子有共同的起源。在众多的家族中,只有少数的家族具有非常高的拷贝数,其中20%的家族包含的序列总量,达到全部LTR反转录转座子相关序列的80%以上。通过比较同一元件两部分LTR序列差异,可以发现,大部分全长的元件都是在最近的2百万年内插入到基因组中的,表明在葡萄基因组中这类元件仍然有很强的活性。LTR反转录转座子是类似于反转录病毒的元件,一般认为并非生物体中跟功能直接相关的必不可少的部分,但是通过编码部分同义非同义突变的分析表明,它们仍然受到较强的选择压力,而且似乎Gypsy超家族受到比Copia超家族更强的选择压力。利用BLASTN我们比较了,葡萄基因组中的LTR反转录转座子与完成全基因组测序的被子植物基因组,结果发现,在其他基因组上存在大量在DNA水平上相似的序列,尤其是在杨树基因组中,有大量高达1000bp以上的保守序列,其中有6对在杨树与葡萄基因组间超保守,并且在它们之间的分化距离明显小于两物种间功能基因的分化距离,我们推断这几个家族可能在葡萄和杨树之间,在近期内发生过水平转移现象。构建系统发育树是进化生物学中的一个热点问题,是重构物种间演化史的关键,目前在这一领域已有大量的研究工作。我们在利用CVtree方法构建真菌系统发育树时发现,对于曲霉菌九个物种,当加入该属之外的物种时,这九个物种间的系统发生关系发生了改变,即当加入远源的物种,会导致近邻的物种间拓扑结构发生改变的现象。基于这种现象,我们设计了一种新的构建系统发育树的方法:邻聚法,该方法从距离矩阵出发,首先把各物种看成孤立的点,从距离相近物种按最小二乘开始聚类,随着距离相近的类群不断聚合,最后将所有的物种连接成一棵无根的系统进化树。该方法局部的近源物种间的结构不受到远源物种的影响。为评估该方法构建系统发育树的效能,我们采用常用的计算机模拟方法,首先给定一棵系统发育树作为模型树,按照模型树生成叶节点的序列,作为当前物种的序列信息,之后可以构建距离矩阵,最后构建系统发育树,将构建的系统发育树与给定的模型树作比较,认为给定的模型树是真实的、正确的系统发育树。模拟结果表明,该方法是非常有效的,并且模型树中的长枝对我们接过产生的影响相对较小。我们用该方法对CVtree构建的细菌和真菌的距离矩阵构建系统进化树,并和其它几种常用方法构建的系统发育树作了比较。从相同的距离矩阵出发,不同的构建系统树方法得到的结构都不完全相同,其中我们详尽的比较的我们的结果与邻接法给出结果的差异。