基于多分类器集成的蛋白质三级结构预测

来源 :济南大学 | 被引量 : 4次 | 上传用户:zcf3031132044
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,生命科学研究已进入后基因组时代。蛋白质结构与功能研究标志着蛋白质组学成为生物信息学的主要研究领域之一。蛋白质结构预测问题是蛋白质组学和生物信息学研究的热点问题。随着机器学习方法在生物信息学领域应用的日趋成熟,大量生物信息学问题已经由原来的单纯生物学实验验证向计算智能与生物实验相结合的解决方式转化。采用计算智能方式解决蛋白质三级结构准确分类问题,核心在于对给定的蛋白质序列进行有效的特征提取,从而找出准确分类的关键信息;根据生物学原理构造相应的分类模型;将这种新模型与其他较为成熟的模型进行比对试验,从而证明新型树状分类模型的实际分类效果。本文从蛋白质特征提取、构造新型树状分类模型、选择合适的集成策略三个方面对原有蛋白质三级结构预测方法进行改进,提出了基于多分类器集成的蛋白质三级结构分类方法。在特征选择方面,本文在前人的实验基础上对于蛋白质序列的统计学信息进行改进,将氨基酸的多种性质进行融合,从而提出了广义多肽相关系数。此外,根据在蛋白质结构模型中的“熔球态”假设,采用氨基酸分子二级结构倾向性和常用蛋白质分子疏水性模式作为本实验的三个特征群。在分类模型构建方面,根据一定的生物学意义和问题的特殊性,本文提出了新型树状蛋白质三级结构分类模型,其主要步骤是先进行三分类(区分α*β结构、all-α结构以及all-β结构)再进行二分类(将α*β结构分为α+β结构和α/β结构),并且在模型的每个分类节点上采用多分类器与多特征群结合投票集成的方式。为了验证新型树状分类模型的效果,本文选取ASTRAL、C204、640和1189四个同源性不同的蛋白质三级结构数据集作为实验样本,同时采用单层one-vs-all模型与该模型进行比对试验,考虑到生物信息中包含有一定数量的冗余信息,采用相关系数法对特征群进行群内降维,从而缩短分类器的运行时间。本文主要创新点在于将柔性神经树模型、粒子群算法优化的神经网络模型以及支持向量机模型作为新型树状分类模型的节点基分类器。在该分类模型中,采用不同分类器与不同特征群进行融合,在各个节点上形成不同的基分类器,并将各个基分类器所产生的结果通过投票集成方式得出最终结果。考虑到特征提取的数据量较为庞大,引入相关系数进行特征群内降维,剔除特征群内的冗余信息。通过横向与纵向试验比对有效的证明了新特征与新分类模型在处理蛋白质三级结构方面的有效性。
其他文献
本文从休闲学的视角出发,以梭罗的主要作品《瓦尔登湖》为切入点,对梭罗的休闲思想进行深入分析。梭罗的休闲思想是自然主义、清教主义、超验主义等思想渊源与十九世纪美国的
在革命年代,党初步树立起敢于担当、一心为民、求真务实、发扬民主等良好的形象。建国后,党确立并不断发展其执政形象。系统梳理总结90多年来党在形象建设方面的历程和成功经
在中国现代文学史上,沈从文是一个独特而重要的作家,因为其文学创作对于现代文明的执著关注,使他成为第一个在现代文明发展之初就对其持清醒反思态度的作家。他的文学创作,因
福建省惠安县机帆船灯光围网作业至今已有38年历史。这一作业成为惠安县海洋捕捞的支柱之一。然而 ,自 1 990年代以来 ,近海渔场各种捕捞作业发展迅速 ,渔船吨位、功率增大 ,
后备人才的培养是竞技体育发展的战略问题,要提高我国排球运动竞技水平,实现可持续发展,建立卓有成效的后备人才培养体系并使其健康发展无疑具有重要意义。“举国体制”下,排球后
【正】 如何科学地合理地组织课堂教学,涉及到许多问题。比如,建立课堂教学的逻辑结构,选择教学内容和方法等等,这是就课堂教学的内在方面而言。从外在方面看,课堂教学中组织
小产权房是我国二元制土地制度与市场经济发展的结果。房地产市场过热是其兴起的直接原因。其发展虽然体现了市场对资源的优化整合,但在法规范上,却存在诸多冲突及模糊规定,
自改革开放以来,对于如何推进党的自身建设这一重大问题,中国共产党一直在不断的探索和实践,在马克思主义理论的指导下,实现了对党的建设理论的不断发展和创新。面对新世纪世
嘉庆皇帝曾说:“能干的人,因为善于说话而显得更加能干;不能干的人,也因为善于说话,使自己的毛病得到遮盖;最惨的一种人就是,虽然做了极好之事,但是因为不会说话,反而将好事变成了坏事
旅游是战略性产业。《国务院关于加快发展旅游业的意见》提出“把旅游业培育成国民经济的战略性支柱产业和人民群众更加满意的现代服务业”。城市是旅游业的核心、主体和结构