基于随机森林算法识别多类蛋白质折叠子

来源 :内蒙古工业大学 | 被引量 : 0次 | 上传用户:zhaotong125555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,“后基因组时代”产生了大量的蛋白质序列数据,这就迫切需要开发一种高通量的计算方法去注释序列的结构信息。蛋白质折叠是一种蛋白质的拓扑模型的核心结构,包含二级结构单元,其相对排布位置关系以及多肽链的整个路由关系三部分。一条蛋白质序列折叠为正确的空间结构才能执行其功能,某些蛋白质的异常折叠可引发疾病,例如老年痴呆症,海绵状脑病,帕金森和疯牛病等神经性疾病都是由于蛋白质的错误折叠形成的致病朊病毒蛋白在脑组织中累计而染病的。因此,蛋白质折叠类的识别对于这些疾病的致病机理的阐明以及药物设计将大有帮助,蛋白质折叠类的识别研究一直是生物信息学的重要研究课题。自从Ding&Dubchack对27类折叠子识别以后,蛋白质折叠子的新的数据库,预测参数,识别的算法已经得到进一步发展。本文在前人的研究基础上主要做了下列工作:  (1)本文重新整理了Liu等人2012年构建的76类折叠子数据库,训练集增加了8条序列,检验集增加了5条序列,新整理的76类数据库序列相似性小于35%,每个折叠类序列条数不小于10条,训练集(检验集)分别包含1744(1727)条序列。76类折叠子中的前27类和Ding&Dubchak构建的数据库中27类折叠子一致,每一种折叠类型中包含的序列数都有所增加,总序列数是Ding&Dubchak的三倍。  (2)考虑到了二级结构片段层次上的相互关联性,我们引入了片段相互作用信息作为预测参数,其包含了序列的顺序信息和序列的远程关联信息,而这些信息是前人没有考虑到的影响蛋白质折叠因素的重要信息。其次我们提取了二级结构片段的平均化学位移值作为特征参数,化学位移不仅包含了序列的结构信息,还包含氢原子交换的动力学,电离,氧化状态,芳香残基的环流影响和氢键相互作用的详细的属性。  (3)本文对27类折叠子数据库进行了识别。基于我们重新整理的27类折叠子数据库,我们提取了序列的氨基酸组分、模体信息、预测的二级结构信息,并计算了二级结构片段相互作用信息,将它们的组合向量作为随机森林算法的预测参数,整体分类策略下,对27类蛋白质折叠子进行了识别,预测精度达到78.2%,其所属的结构类预测精度达到92.55%,取得了好于前人的预测效果。最后我们采用同样的方法识别Ding&Dubchak构建的27类蛋白质折叠子数据库,也取得了比较好的预测结果。  (4)本文对76类蛋白质折叠子进行了识别。基于我们整理的76类蛋白质折叠子数据库,本文提取了序列的离散增量值,模体信息,预测的二级结构信息和片段的平均化学位移信息,将它们的组合向量输入随机森林算法,整体分类策略下,识别76类蛋白质折叠子,独立检验集的独立检验精度为66.69%;五交叉检验精度为73.43%。接着,我们用同样的方法进一步识别该数据库的前27类折叠子检验集和所属的结构类型,识别精度分别达到79.66%,93.40%;五交叉检验精度为81.21%。同样的特征参数和算法应用于Ding&Dubchak构建的27类蛋白质折叠子数据库,也取得了比较好的预测结果。
其他文献
环境污染的控制主要针对两个方面:污染物的浓度控制和污染物排放量的控制,其中,对污染物排放量的控制是预防和改善环境质量的关键.该文以二氧化硫为例,阐述总量分配的原理,基
随着变分不等方程理论的飞速发展及其应用范围的不断扩大使得变分不等方程基本理论的研究日益重要.该文旨在对一类应用广泛的变分不等方程-非线性椭圆障碍问题的弱解的基本理
在过去的几十年中,许多数学工作者(例如A.Nica,M.Laca,,I.Raeburn[5]等)都对定义在离散群上的Toeplitz代数作了深入而且广泛的研究.该文的主要目的是通过对相关Toeplitz代数
在新课程教育中,课堂教学需要关注学生生命成长,让课堂焕发生命气息,吹开激情的花朵,绽放智慧光芒,彰显个性风采,形成生成性的动态课堂呢?那么,在高中历史教学中,教师应如何
v阶λ重完全图λKv是一个v点无向图,其任二不同顶点x和y间都恰有λ条边(x,y)相连.对于有限简单图G,一个图设计G-GD(v)是一个序偶(X,B),其中X是K的顶点集,B为λKv的全部边的一
设S是半群,关系L(R)分别定义为,aL(R)b当且仅当a,b在S的某一扩张上满足关系L(R).半群S称为左(右)富足半群,若S的每个R(L)-类都包含幂等元.若S既是左富足半群,又是右富足半群,
我们应致力在语文教学实践中指导学生掌握朗读的方法,培养学生的朗读习惯,使学生在潜移默化中模仿、学习、想象、思考、乃至创造,这对语文教学具有突出的现实意义.
该文对带有高阶振荡系数的抛物型方程给出其多尺度有限元方法.这一方法能够不求解每一个小尺度问题而精确高效的抓住大尺度特征.通过在各个单元上根据微分算子的性质建立多尺
在当今这个科学与技术快速发展的时代,非线性发展方程扮演着极其重要的角色。随着非线性科学的广泛应用,如何解决非线性演化方程,得到了学者们的广泛关注。作为一种数学模型,它被
创新教育是新课程改革过程中一道亮丽的风景线,它以培养学生创新意识、创新思维和创新能力为宗旨。在小学数学课堂教学中,每一个教师一定要千方百计地开启学生的创新之门,积