蛋白质折叠类型分类及其Profile HMM识别

来源 :北京工业大学 | 被引量 : 4次 | 上传用户:weiguoliaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物大分子数据库中蛋白质序列数目的增多,发展有效的方法,从氨基酸序列提取结构信息成为后基因组时代的重要研究课题。越来越多的证据表明,天然蛋白质的折叠类型在总数上的是有限的,一般认为只有数百到数千种,远小于蛋白质所具有的自由度数。Anfinsen原理指出蛋白质的结构在很大程度上由其序列决定,当蛋白质结构数据库趋于完备以后,结构的解析问题就可以转化为折叠识别问题,即使用计算方法,找到与待预测蛋白质序列在三维结构上最匹配的已知折叠类型。对自然界存在的数百到数千种折叠类型进行系统研究,有助于揭示蛋白质的折叠规律,可为大型的蛋白质数据库提供结构注释,或者为蛋白质的精确结构预测提供参考。 目前的蛋白质折叠类型识别基本上都是靠专家来完成的,不同的库分类颇不相同。SCOP通过观察将蛋白质按照同源性进行分类,但在SCOP的一些折叠子中,二级结构及其走向存在很大差异,为折叠识别的模型构建造成困难;CATH以序列、结构比对的相似性打分为依据进行"Topology"的分类,并没有直接反映出蛋白质之间二级结构及其空间排布上的相似性。实际上,蛋白质的折叠类型反映了蛋白核心结构的拓扑结构模式,包括蛋白质分子空间结构的三个主要方面:二级结构单元、二级结构单元的相对排布位置以及蛋白质多肽链的整个路由关系(即肽链走向),我们在蛋白质折叠结构研究的基础上,以结构域的拓扑不变性为依据,结合二级结构片段的空间排列、取向特征和连接关系,进行蛋白质折叠类型分类,建立了LIFCA数据库,为蛋白质折叠识别奠定了基础。 折叠识别的一个重要方面是建立折叠识别算法。目前,折叠识别的方法大体上可以分为三类:氨基酸序列的两两比较,如使用Blast和Fasta判断序列之间的相似性;多序列建模,如Profile HMM方法;分类器,如神经网络,支持向量机等。与两两比较方法相比,HMM建立了统一的模型,可以抓住一组同源序列的公共核心,因而对于那些在已知数据库没有高相似度模板的未知序列有更好的识别效果;与SVM等分类机器相比,虽然后者可能获得较高的准确率,但是Profile HMM有较为统一的构架,保留了位点信息,有详细的序列概形,与SVM相比更有助于对特定折叠类型进行进一步的分析和研究。 在本文中,我们在前期折叠分类的基础上,对α类、β类及α/β类中样本数量较多的74种折叠类型进行研究,利用结构比对得到多序列比对,继而产生Profile HMM进行识别,研究工作主要包括以下几个方面: 1.蛋白质折叠类型分类数据库LIFCA的建立 选取序列同一性低于25%的2406个蛋白质,包含了全α、全β,α/β三个结构类的所有代表性序列,在蛋白质折叠结构研究的基础上,以结构域的拓扑不变性为依据,结合二级结构片段的空间排列、取向特征和连接关系,进行蛋白质折叠类型分类,对于结构域的序列、二级结构等信息,提供了详细的注释。为蛋白质折叠类型识别奠定基础。 2.折叠类型的结构比对研究 使用结构比对算法对LIFCA进行了同种折叠类型在结构上的差异性研究,以结构比对为基础得到了折叠类型的多序列比对结果,用于建立折叠类型的模型。 3.HMM模型数据库的建立 对成员数目大于等于4并且结构比对效果较为显著的74个折叠类型分别建立HMM模型,组成隐马尔科夫模型库。使用非冗余的Astra11.65序列库进行识别检验,识别精度74.5%,并保持了很低的假阳性率,识别效果比目前报导的一些方法识别效果均要好。 本文从数据集筛选及算法两个方面对蛋白质的折叠类型识别方法进行了改进,建立的隐马尔科夫模型库覆盖范围较广,识别准确率高,为折叠类型识别提供了一种新思路,对于相关的研究工作有参考价值,同时为进一步的研究提供了基础。
其他文献
含酚废水具有高毒性、成分复杂、可生化性差、含盐量高、色度高等特点,并且来源广泛,农药、树脂、焦化、医药、染料等化工企业都是产生含酚废水的重要场所,大量的含酚废水产生会
基于本科研团队前期的波形齿锚具加固钢筋混凝土梁的静力试验研究成果,通过系列构件的疲劳试验,研究波形齿锚具预应力碳纤维加固钢筋混凝土梁的疲劳性能,得到以下主要结论:  (1
会议
地震预警系统可在破坏性地震发生后,抢在破坏性地震波到达之前,发布地震动强度和到达时间的预警信息,使企业和公众能够及时采取应急处置措施,以减轻地震人员伤亡和灾害损失。基于
子结构拟动力方法在结构抗震试验中得到广泛应用,这种试验方法可以将待求的结构分解成一个或者几个部分,从而实现“化整为零”,将一个较大型的试验分为若干小试验来进行;对比
随着经济的发展电力能源得到广泛的应用,高压、特高压输电线路的建设越来越普遍。冬季导线覆冰后,在风荷载作用下会发生低频、大振幅的自激振动,即舞动。由于导线舞动的振幅较大,故会造成线路出现多种破坏。为此人们进行了大量的试验及理论研究。目前常用均匀流下风荷载对导线进行分析,单导线数值分析模型多为索单元模型,分裂导线多为等效单导线模型等。本文中采用数值模拟方法计算湍流风场下,单导线索单元模型与考虑抗弯刚度
会议