论文部分内容阅读
随着人类基因组计划的完成,“后基因组时代”产生了大量的蛋白质序列数据,这就迫切需要开发一种高通量的计算方法去注释序列的结构信息。蛋白质折叠是一种蛋白质的拓扑模型的核心结构,包含二级结构单元,其相对排布位置关系以及多肽链的整个路由关系三部分。一条蛋白质序列折叠为正确的空间结构才能执行其功能,某些蛋白质的异常折叠可引发疾病,例如老年痴呆症,海绵状脑病,帕金森和疯牛病等神经性疾病都是由于蛋白质的错误折叠形成的致病朊病毒蛋白在脑组织中累计而染病的。因此,蛋白质折叠类的识别对于这些疾病的致病机理的阐明以及药物设计将大有帮助,蛋白质折叠类的识别研究一直是生物信息学的重要研究课题。自从Ding&Dubchack对27类折叠子识别以后,蛋白质折叠子的新的数据库,预测参数,识别的算法已经得到进一步发展。本文在前人的研究基础上主要做了下列工作: (1)本文重新整理了Liu等人2012年构建的76类折叠子数据库,训练集增加了8条序列,检验集增加了5条序列,新整理的76类数据库序列相似性小于35%,每个折叠类序列条数不小于10条,训练集(检验集)分别包含1744(1727)条序列。76类折叠子中的前27类和Ding&Dubchak构建的数据库中27类折叠子一致,每一种折叠类型中包含的序列数都有所增加,总序列数是Ding&Dubchak的三倍。 (2)考虑到了二级结构片段层次上的相互关联性,我们引入了片段相互作用信息作为预测参数,其包含了序列的顺序信息和序列的远程关联信息,而这些信息是前人没有考虑到的影响蛋白质折叠因素的重要信息。其次我们提取了二级结构片段的平均化学位移值作为特征参数,化学位移不仅包含了序列的结构信息,还包含氢原子交换的动力学,电离,氧化状态,芳香残基的环流影响和氢键相互作用的详细的属性。 (3)本文对27类折叠子数据库进行了识别。基于我们重新整理的27类折叠子数据库,我们提取了序列的氨基酸组分、模体信息、预测的二级结构信息,并计算了二级结构片段相互作用信息,将它们的组合向量作为随机森林算法的预测参数,整体分类策略下,对27类蛋白质折叠子进行了识别,预测精度达到78.2%,其所属的结构类预测精度达到92.55%,取得了好于前人的预测效果。最后我们采用同样的方法识别Ding&Dubchak构建的27类蛋白质折叠子数据库,也取得了比较好的预测结果。 (4)本文对76类蛋白质折叠子进行了识别。基于我们整理的76类蛋白质折叠子数据库,本文提取了序列的离散增量值,模体信息,预测的二级结构信息和片段的平均化学位移信息,将它们的组合向量输入随机森林算法,整体分类策略下,识别76类蛋白质折叠子,独立检验集的独立检验精度为66.69%;五交叉检验精度为73.43%。接着,我们用同样的方法进一步识别该数据库的前27类折叠子检验集和所属的结构类型,识别精度分别达到79.66%,93.40%;五交叉检验精度为81.21%。同样的特征参数和算法应用于Ding&Dubchak构建的27类蛋白质折叠子数据库,也取得了比较好的预测结果。