论文部分内容阅读
随着生物大分子数据库中蛋白质序列数目的增多,发展有效的方法,从氨基酸序列提取结构信息成为后基因组时代的重要研究课题。越来越多的证据表明,天然蛋白质的折叠类型在总数上的是有限的,一般认为只有数百到数千种,远小于蛋白质所具有的自由度数。Anfinsen原理指出蛋白质的结构在很大程度上由其序列决定,当蛋白质结构数据库趋于完备以后,结构的解析问题就可以转化为折叠识别问题,即使用计算方法,找到与待预测蛋白质序列在三维结构上最匹配的已知折叠类型。对自然界存在的数百到数千种折叠类型进行系统研究,有助于揭示蛋白质的折叠规律,可为大型的蛋白质数据库提供结构注释,或者为蛋白质的精确结构预测提供参考。
目前的蛋白质折叠类型识别基本上都是靠专家来完成的,不同的库分类颇不相同。SCOP通过观察将蛋白质按照同源性进行分类,但在SCOP的一些折叠子中,二级结构及其走向存在很大差异,为折叠识别的模型构建造成困难;CATH以序列、结构比对的相似性打分为依据进行"Topology"的分类,并没有直接反映出蛋白质之间二级结构及其空间排布上的相似性。实际上,蛋白质的折叠类型反映了蛋白核心结构的拓扑结构模式,包括蛋白质分子空间结构的三个主要方面:二级结构单元、二级结构单元的相对排布位置以及蛋白质多肽链的整个路由关系(即肽链走向),我们在蛋白质折叠结构研究的基础上,以结构域的拓扑不变性为依据,结合二级结构片段的空间排列、取向特征和连接关系,进行蛋白质折叠类型分类,建立了LIFCA数据库,为蛋白质折叠识别奠定了基础。
折叠识别的一个重要方面是建立折叠识别算法。目前,折叠识别的方法大体上可以分为三类:氨基酸序列的两两比较,如使用Blast和Fasta判断序列之间的相似性;多序列建模,如Profile HMM方法;分类器,如神经网络,支持向量机等。与两两比较方法相比,HMM建立了统一的模型,可以抓住一组同源序列的公共核心,因而对于那些在已知数据库没有高相似度模板的未知序列有更好的识别效果;与SVM等分类机器相比,虽然后者可能获得较高的准确率,但是Profile HMM有较为统一的构架,保留了位点信息,有详细的序列概形,与SVM相比更有助于对特定折叠类型进行进一步的分析和研究。
在本文中,我们在前期折叠分类的基础上,对α类、β类及α/β类中样本数量较多的74种折叠类型进行研究,利用结构比对得到多序列比对,继而产生Profile HMM进行识别,研究工作主要包括以下几个方面:
1.蛋白质折叠类型分类数据库LIFCA的建立
选取序列同一性低于25%的2406个蛋白质,包含了全α、全β,α/β三个结构类的所有代表性序列,在蛋白质折叠结构研究的基础上,以结构域的拓扑不变性为依据,结合二级结构片段的空间排列、取向特征和连接关系,进行蛋白质折叠类型分类,对于结构域的序列、二级结构等信息,提供了详细的注释。为蛋白质折叠类型识别奠定基础。
2.折叠类型的结构比对研究
使用结构比对算法对LIFCA进行了同种折叠类型在结构上的差异性研究,以结构比对为基础得到了折叠类型的多序列比对结果,用于建立折叠类型的模型。
3.HMM模型数据库的建立
对成员数目大于等于4并且结构比对效果较为显著的74个折叠类型分别建立HMM模型,组成隐马尔科夫模型库。使用非冗余的Astra11.65序列库进行识别检验,识别精度74.5%,并保持了很低的假阳性率,识别效果比目前报导的一些方法识别效果均要好。
本文从数据集筛选及算法两个方面对蛋白质的折叠类型识别方法进行了改进,建立的隐马尔科夫模型库覆盖范围较广,识别准确率高,为折叠类型识别提供了一种新思路,对于相关的研究工作有参考价值,同时为进一步的研究提供了基础。