蛋白质结构预测中结构构象选择方法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:wangliang19910125
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,蛋白质序列数据库以很快的速度增长,而蛋白质结构测定的实验技术却很慢,因此使用计算方法来预测蛋白质结构成为缩小序列测定和结构测定之间速度鸿沟的重要方法。蛋白质结构预测中的一个重要步骤是如何评价蛋白质结构构象的质量。蛋白质构象评测也称为蛋白质结构构象选择,即对蛋白质构象进行打分,以衡量其与真实结构的相似性。在蛋白质结构预测算法中,特别是Ab initio的方法,往往会对同一个序列产生成千上万个预测构象,即使其中包含与真实结构很相似的构象,却经常面临挑选不出来的困境。目前主要有三种类型的打分方法,即基于物理学的能量函数、基于统计的势函数与基于机器学习的打分函数。基于物理的能量函数是利用了量子力学原理来设计的;基于统计的势函数是利用氨基酸的一些统计属性来设计的,这些属性包括氢键、二级结构、分子间两两距离等等;第三种基于机器学习技术的打分函数是利用神经网络或支持向量机的方法,将第一种与第二种打分函数中的能量项作最优组合。当前的蛋白质结构构象评测方法还存在着种种不足,比如:有些打分函数对差别较大的构象(很好的与很坏的构象)有自己的优势,但对于差别较小的构象却无能为力;有些能够区分真实构象(天然构象)与预测构象,但怎样从预测构象中挑选出与天然构象最相近的构象却表现不好。   本文对蛋白质结构构象选择的机器学习方法进行了研究。基于ROSETTA的能量项,通过重新对每一个能量项赋予不同的权重,使得天然构象和预测构象能够很好的区分,同时使得分不同的构象也尽量分开。使用整数线性规划和支持向量机回归的方法来求解参数训练问题。在两个数据集上进行了测试:一个是由FALCON为6个蛋白质产生的6000个构象,另一个是由ROSETTA产生的6000个构象。本文作者将每个数据集分为训练数据和测试数据,训练数据用来训练能量项的最优权重。本文作者做了三项实验:①对测试数据集合中的构象,求出能量函数值与构象质量(以Tmscore表示)的相关性,并以此相关性来衡量求出的权重是否有助于构象选择;②将训练获得的权重替代ROSETTA中的默认权重,利用改写权重之后的ROSETTA重新生成2000个构象,比较不同权重的ROSETTA产生构象的质量;③最后使用训练获得的能量函数对CASP8的预测结果进行构象选择,并评价选择结果。结果表明:设计的整数线性规划方法对于ROSETTA产生的数据集是有效的,能够改善预测打分与真实打分的相关性,对某些蛋白质(如lenh),训练得到的权重能够改善ROSETTA生成构象的质量,在CASP8数据集上,训练得到的新能量函数能够改善构象选择的性能。
其他文献
网格技术将地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源等连成一个逻辑整体,并为用户提供一体化的资源信息应用服务。网格记账系统是在网格环境下解析
物联网是射频识别技术与互联网结合而成的新型网络,其具有与互联网类同的资源寻址需求,以确保其中联网物品的相关信息能够被高效、准确和安全的寻址、定位以及查询。其上的发现
学位
互联网的出现使到信息的交换和共享变得简单,人们如今可以通过Internet发布自己的作品、重要信息和进行网上贸易,但随之而来的问题也十分严重,例如作品侵权更加容易,盗取及篡改也
颜色量化是计算机彩色图像处理的关键技术之一,即在尽可能完美地再现原始图像色彩效果的前提下,减少图像中的冗余信息,从而减少图像数据对存储空间和信道容量的要求。颜色量化算
2007年,我国在南海神狐海域成功钻获天然气水合物实物样品,这为研究天然气水合物提供了理想的场所。但是随着天然气水合物勘探技术的发展,水合物数据日益增长,数据量大、数据
学位
多词表达是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”,它是一种由若干词汇组成的语义单元,但其句法与语义属性并不能显式地由其构成词汇给出。自动识别和应
多媒体技术和计算机互联网的飞速发展使得人们可以更好地享受各类视频信息,如:有线电视、交互式网络电视、视频监控、视频电话等。为了节约这些视频信息的存储空间及网络传输带
学位
在信息检索系统中由于查询过短和存在歧义等原因,单纯依靠用户自己构造查询往往不能准确地表达搜索意图,导致搜索效果不佳,查询推荐是解决这一问题的关键技术之一。查询推荐技术
党中央、国务院历来高度重视安全生产工作,安全生产不仅关系人民群众的生命财产安全,还关系着改革、发展和稳定的大局。目前,我国经济和社会发展水平决定了我国在一段相当长的时
工业产品的快速开发要求采用“V”字形开发。作为“V”字形开发不可或缺的重要组成部分,快速控制原型能大大缩短产品的开发周期。在线调参是快速控制原型开发的关键技术。在线