论文部分内容阅读
自从1993年发现第一个新基因精卫(jingwei)以来,关于物种特异性或系特异性基因在进化中如何起源的问题获得越来越多的关注。多种新基因起源的机制被发现,包括DNA水平复制,RNA水平复制,从头起源,水平基因转移等。新基因机制的研究依赖于准确的新基因鉴定。新基因是进化历史上近期出现的,在系统发生上分布有局限性。因此,注释新基因产生时间的方法,目前的策略是依据系统发生树上直系同源基因的分布进行推断。我们根据这种策略,采用两种方法对基因年龄进行注释。第一种是传统上对于单基因的系统发生方法,本文使用这种方法对涉及植物从水生环境适应陆生环境的两个重要基因进行研究;第二种方法是在传统方法的基础上,利用全基因组共线性比对结果,进行全基因组基因年龄注释。我们利用Ensembl的基因注释信息,对包括人,小鼠和鸡等六个物种的所有已注释基因进行年龄注释,同时也对来自Refseq, Ensembl和UCSC数据库的人和小鼠的长非编码RNA进行年龄注释。完成基因的年龄注释时我们注意到,物种特异性基因在不同Ensembl版本中的数目有相当的波动。这种版本间的不一致使我们意识到,Ensembl的基因注释对于年轻的基因是不稳定的,甚或是不可靠的。Ensembl基因注释面临的难关之一是无法正确区分那些通常由DNA水平或RNA水平复制产生的新蛋白编码基因和假基因。为解决人类基因注释中的这个问题,我们使用来自peptideAtla, ProteomicsDB口Human Proteome Map多个质谱数据库中的肽段序列,验证Ensembl的假基因是否真正无法翻译。我们检测到116个假基因至少有一个质谱产生的多肽唯一匹配覆盖。其中有超过60个是灵长类特异性基因。说明有相当部分的新编码基因在主流的基因注释(如:Ensembl)中被错误注释成假基因。除新基因起源机制的研究外,新基因多样性的功能使其在表型进化中的重要性也日益得到认可。我们正努力地开发一款在线数据库(http://gentree.ioz.ac.cn/),可以展示我们在新基因的鉴定和重注释方面的数据。以后,相信这款数据库会成为进化研究和功能学研究方面的服务型资源,并且能帮助新基因的研究领域取得更多的成果。