论文部分内容阅读
蛋白质亚细胞定位分析是揭示蛋白质功能的关键步骤。一个蛋白质分子能被定位到2个亚细胞位置,这一现象被称为蛋白质的“双定位”。根据对蛋白质N端序列的分析结果,研究人员估计在陆地植物中存在400多个能双定位到线粒体和叶绿体的蛋白质。但用生物化学实试验方法确认的双定位蛋白质的数量极其有限。本文首先从Uniprot、MitoP2、DBMLoc、TAIR、MGI等数据库,以及相关文献中收集植物双定位蛋白质数据,整合GO注释信息,构建而成包含22447个歧义定位蛋白质和125个twin定位蛋白质的双定位蛋白质数据库。然后从中选取定位在线粒体和质体的703个双定位蛋白质,再从Uniprot中选取唯一定位在线粒体829个蛋白质和唯一定位在质体的6376个蛋白质,作为测试数据集,分析双定位蛋白质氨基酸序列的特征。研究结果表明:(1)与线粒体蛋白质和质体蛋白质相比,双定位蛋白质具有更低的净电荷量,其N端转运肽正、负电荷氨基酸的含量均显著低于质体蛋白质转运肽,N端转运肽的小氨基酸含量高于线粒体蛋白质但低于质体蛋白质转运肽。可能暗示着蛋白质能双定位到线粒体和质体的基本物化特性。(2)对3个数据测试集蛋白质的结构域(Domain)和基序(Motif)分析表明,与线粒体蛋白质结构序列相比,双定位蛋白质显著富集有1个基序和5个结构域;与质体蛋白质结构序列比较,在双定位蛋白质中挖掘出显著富集的21个基序和40个结构域。(3)对双定位蛋白质的2400维间隔氨基酸对组成分析,获得947个显著上调表达的间隔氨基酸对、676个显著下调表达的间隔氨基酸对。(4)对双定位蛋白质数据集中4个蛋白质家族进行进化分析,结果发现具有相同亚细胞定位特性的蛋白质进化距离较短。本文研究结果将为开发植物双定位蛋白质的预测工具奠定基础。