论文部分内容阅读
基因重复是生物进化的主要推动力。基因重复直接导致了基因数目的增加,而随后重复基因之间的分化则丰富了基因的多样性。对基因重复的发生机制及重复基因的分化机制的研究,能够为我们深入理解生物体的进化提供关键线索。在本研究中,我们选取了模式植物拟南芥和水稻基因组中的MADS-box基因家族和F-box基因超家族作为研究材料,利用系统发育分析和生物信息学手段,鉴定出了其中的重复基因及其产生式样,并在此基础上从内含子-外显子结构变化的角度对它们在编码区的分化式样进行了分析。主要结果如下:
1、单子叶植物中花器官身份(floral organ identity)MADS-box基因的进化。通过对单子叶植物中控制花器官形成的AP1、AP3、PI、AG、AGL11、AGL2/3/4和AGL9七个亚家族的MADS-box基因进行的系统发育分析,发现除了AP3亚家族外,其他六个亚家族都在禾本科植物起源之前经历了至少一次基因重复事件。
2、F-box基因超家族的进化。在植物中,F-box基因的数目众多,但相互之间的关系和进化历史还不清楚。为此,我们在系统发育分析的基础上建立了被子植物中F-box基因分类和进化的基本框架,鉴定出了相对保守的家族和快速进化的家族。在相对保守的家族中,基因的数目在真双子叶植物和单子叶植物分化之后就没有改变或者变化甚微;而在相同的时间尺度下,那些快速进化的家族中基因的数目则大幅度增加,有两个家族甚至增加了100倍以上。进一步分析表明F-box基因的不同进化模式与其功能相关。
3、MADS-box和F-box重复基因的产生方式。利用系统发育分析和基因组信息,我们发现在MADS-box基因家族中,Ⅰ型和Ⅱ型重复基因的产生可以分别用串联重复和片段重复来解释,并且Ⅱ型重复基因中有些是基因组加倍产生的;在F-box基因超家族中,串联重复对基因数目的扩增具有重要的贡献,相比较而言,片段重复所起作用甚微。
4、MADS-box和F-box重复基因在编码区的分化式样。目前国际上对重复基因编码区分化机制的研究多是从点突变和插入/缺失突变的角度入手的,对其他可能的机制所进行的分析则十分少见。在本研究中,我们通过系统发育分析和双向BLAST两种方法鉴定出了MADS-box基因家族和F-box基因超家族中近期产生的重复基因。对这些基因的内含子-外显子结构进行比较,发现其中的大多数都在结构上发生了分化。导致这些分化的机制有外显子化、假外显子化、外显子重复、外显子删除以及外显子内部的插入/缺失突变等。
在MADS-box基因家族中,我们发现重复基因发生内含子-外显子结构分化的频率与Ks值正相关,但在F-box基因超家族则无此规律。然而无论是MADS-box还是F-box重复基因发生结构分化的频率都随Ka/Ks值的升高而增加。以串联重复产生的基因对发生结构分化的频率显著高于以片段重复和散在重复产生的基因对。在有表达数据的99对重复基因中,超过50%的基因对都在表达模式和基因结构上发生了分化。
综合以上结果可以看出,不同类型的基因各自有其独特的进化方式,在基因数目扩张上即使是同一家族内部也会有所不同。在重复基因产生之后,编码区除了会发生点突变这样缓慢的变化之外,还能够通过内含子-外显子的结构分化而快速地发生分化。并且,这种分化方式远比人们想象中的更为普遍,很可能是重复基因发生功能分化的主要途径。