论文部分内容阅读
分子系统发育分析的主要任务包括:(1)帮助建立生命之树(tree oflife);(2)追踪基因和基因家族(gene family)的起源和进化,以获知基因在进化过程中的功能分化和伴随发生的重要分子事件(key molecular events)和形态性状的关键创新(key innovation)。这两个方面在本研究中都有所涉及。对于前者,选用植物线粒体matR基因重建被子植物蔷薇类群的系统发育关系;对于后者,则以SET基因超家族为例,探讨其在真核生物中的进化分类以及与功能多样性的关系。
Ⅰ.蔷薇类的分子系统学
蔷薇类(rosids)是基于分子数据建立的被子植物的主要分支之一,包含13个目,大约三分之一的被子植物物种。两个主要蔷薇类内部分支是豆类fabids(包含7个目)和锦葵类malvids(包含3个目)。然而,这两个分支内部,以及这两个分支与蔷薇类基部类群,包括牻牛儿苗目(Geraniales)、桃金娘目(Myrtales)和流苏子目(Crossosomatales)之间的关系大多是不清楚的。本研究中,我们选取174个物种来代表72个蔷薇类(rosids)的科,利用两个数据集,即线粒体matR单基因数据集和包括线粒体matR基因、两个质体基因(rbcL、atpB)和一个核基因(18S rDNA)的4基因数据集,重建蔷薇类在科以上分类阶元水平的系统发育关系。同时,还对线粒体matR基因的进化特征和用于大尺度系统发育分析的适合度和潜力进行了评价。
线粒体matR单基因数据支持malvids和大多数蔷薇类目的单系性质,然而,豆类(fabids)成员没有形成一个分支,其COM亚支,包括卫矛目(Celastrales)、酢浆草目(Oxalidales)、金虎尾目(Malpighiales)和蒜树科(Huaceae),分辨为锦葵类(malvids)的姐妹群。这个关系在最近根据花结构特征曾被提出过,但从未在之前的分子系统发育分析中得到分辨。4基因数据集支持首先是牻牛儿苗目(Geraniales),接着是桃金娘目(Myrtales)作为蔷薇类(rosids)的最基部的分支;流苏子目(Crossosomatales)是锦葵类(malvids)姐妹群,以及蔷薇类(rosids)的核心部分包括豆类(fabids),锦葵类(malvids)和流苏子目(Crossosomatales)。线粒体matR基因的进化特征分析显示,与两个叶绿体基因(rbcL和atpB)比较,同义替代速率约是它们的1/4,而非同义替代速率接近于自身的同义替代速率,表明matR基因具有松弛的选择压力。线粒体matR基因相对慢速的进化使非同源相似(homoplasious)突变减少,提高了系统发育信息的质量,同时,松弛的选择压力使非同义替代数量增加,弥补了慢速进化导致的系统发育信息数量不足的缺陷,这两个方面的结合使线粒体matR基因非常适用于被子植物在科以上水平的系统发育研究。
Ⅱ.SET基因超家族的系统发育基因组学分析
SET基因超家族基因编码含有SET结构域的蛋白,在真核生物中,SET-domain蛋白一般是多结构域(multi-domain)的。SET-domain蛋白具有对组蛋白H3和H4的N末端尾部进行赖氨酸残基甲基化修饰的酶活性;从异染色质形成到基因转录,甲基化的组蛋白广泛影响染色质水平的基因调控。依据SET结构域一级序列的相似性和结构域组织(domain architecture)特征,目前,SET-domain基因超家族被划分为4-7个家族。由于这些划分或者使用动物或者使用植物SET基因,只有少数其它类群的物种加入分析,因此这样的划分可能是不完整的。本研究采用系统发育基因组学方法(phylogenomic approach),在真核生物范围内广泛取样,期望获得相对完整的SET-domain基因家族的进化分类方案,在此基础上加深理解SET-domain基因的进化机制和功能多样性。
在提取了17个物种,代表5个真核超群的SET蛋白序列基础上,系统发育分析结合“结构域组织特征”鉴别了9个SET基因家族,其中一个是新的SET基因家族。以前的SET8和ClassⅥ家族,及SMYD和SUV4-20家族分别合并为一个家族。大部分家族在进化过程中发生了2次以上的基因重复事件,通过获得不同的结构域产生具有不同功能的新基因。一个SET基因家族在进化过程中推测发生了从脊椎动物祖先向盘基网柄菌(Dictyostelium discoideum)的水平基因转移。