蛋白质结构预测中结构构象选择方法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：wangliang19910125

【摘要】

：

当前，蛋白质序列数据库以很快的速度增长，而蛋白质结构测定的实验技术却很慢，因此使用计算方法来预测蛋白质结构成为缩小序列测定和结构测定之间速度鸿沟的重要方法。蛋白质结构

【作者】

：

杨继爽

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2009年期

【关键词】

：

蛋白质结构序列测定构象评测支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前，蛋白质序列数据库以很快的速度增长，而蛋白质结构测定的实验技术却很慢，因此使用计算方法来预测蛋白质结构成为缩小序列测定和结构测定之间速度鸿沟的重要方法。蛋白质结构预测中的一个重要步骤是如何评价蛋白质结构构象的质量。蛋白质构象评测也称为蛋白质结构构象选择，即对蛋白质构象进行打分，以衡量其与真实结构的相似性。在蛋白质结构预测算法中，特别是Ab initio的方法，往往会对同一个序列产生成千上万个预测构象，即使其中包含与真实结构很相似的构象，却经常面临挑选不出来的困境。目前主要有三种类型的打分方法，即基于物理学的能量函数、基于统计的势函数与基于机器学习的打分函数。基于物理的能量函数是利用了量子力学原理来设计的；基于统计的势函数是利用氨基酸的一些统计属性来设计的，这些属性包括氢键、二级结构、分子间两两距离等等；第三种基于机器学习技术的打分函数是利用神经网络或支持向量机的方法，将第一种与第二种打分函数中的能量项作最优组合。当前的蛋白质结构构象评测方法还存在着种种不足，比如：有些打分函数对差别较大的构象(很好的与很坏的构象)有自己的优势，但对于差别较小的构象却无能为力；有些能够区分真实构象(天然构象)与预测构象，但怎样从预测构象中挑选出与天然构象最相近的构象却表现不好。　　本文对蛋白质结构构象选择的机器学习方法进行了研究。基于ROSETTA的能量项，通过重新对每一个能量项赋予不同的权重，使得天然构象和预测构象能够很好的区分，同时使得分不同的构象也尽量分开。使用整数线性规划和支持向量机回归的方法来求解参数训练问题。在两个数据集上进行了测试：一个是由FALCON为6个蛋白质产生的6000个构象，另一个是由ROSETTA产生的6000个构象。本文作者将每个数据集分为训练数据和测试数据，训练数据用来训练能量项的最优权重。本文作者做了三项实验：①对测试数据集合中的构象，求出能量函数值与构象质量(以Tmscore表示)的相关性，并以此相关性来衡量求出的权重是否有助于构象选择；②将训练获得的权重替代ROSETTA中的默认权重，利用改写权重之后的ROSETTA重新生成2000个构象，比较不同权重的ROSETTA产生构象的质量；③最后使用训练获得的能量函数对CASP8的预测结果进行构象选择，并评价选择结果。结果表明：设计的整数线性规划方法对于ROSETTA产生的数据集是有效的，能够改善预测打分与真实打分的相关性，对某些蛋白质(如lenh)，训练得到的权重能够改善ROSETTA生成构象的质量，在CASP8数据集上，训练得到的新能量函数能够改善构象选择的性能。

其他文献

网格资源记账系统的性能优化关键技术研究

网格技术将地理上广泛分布的计算资源、存储资源、网络资源、软件资源、信息资源等连成一个逻辑整体，并为用户提供一体化的资源信息应用服务。网格记账系统是在网格环境下解析

学位

计算机网络网格计算模式映射程序语言

支持访问控制的物联网发现服务的设计与实现

物联网是射频识别技术与互联网结合而成的新型网络，其具有与互联网类同的资源寻址需求，以确保其中联网物品的相关信息能够被高效、准确和安全的寻址、定位以及查询。其上的发现

学位

访问控制

基于图像信息隐藏技术的点对点传输编码的实现与应用

互联网的出现使到信息的交换和共享变得简单，人们如今可以通过Internet发布自己的作品、重要信息和进行网上贸易，但随之而来的问题也十分严重，例如作品侵权更加容易，盗取及篡改也

学位

网络安全信息隐藏技术图像信息隐藏点对点传输编码模块设计

基于频率特征的真彩色图像颜色量化算法的研究与实现

颜色量化是计算机彩色图像处理的关键技术之一，即在尽可能完美地再现原始图像色彩效果的前提下，减少图像中的冗余信息，从而减少图像数据对存储空间和信道容量的要求。颜色量化算

学位

颜色量化频率颜色直方图图像处理

天然气水合物资源评价数据管理系统设计与开发

2007年,我国在南海神狐海域成功钻获天然气水合物实物样品,这为研究天然气水合物提供了理想的场所。但是随着天然气水合物勘探技术的发展,水合物数据日益增长,数据量大、数据

学位

领域多词表达翻译对的自动抽取及其应用

多词表达是一个影响着自然语言处理领域中许多其他应用问题的“基础问题”，它是一种由若干词汇组成的语义单元，但其句法与语义属性并不能显式地由其构成词汇给出。自动识别和应

学位

汉字处理机器翻译多词表达短语抽取

感兴趣区域优化编码研究

多媒体技术和计算机互联网的飞速发展使得人们可以更好地享受各类视频信息，如：有线电视、交互式网络电视、视频监控、视频电话等。为了节约这些视频信息的存储空间及网络传输带

学位

视频编码

基于Web搜索日志的查询推荐研究

在信息检索系统中由于查询过短和存在歧义等原因，单纯依靠用户自己构造查询往往不能准确地表达搜索意图，导致搜索效果不佳，查询推荐是解决这一问题的关键技术之一。查询推荐技术

学位

查询推荐Web搜索日志查询关系图性能优化信息检索系统

基于移动物联网的安全生产系统构建及评价分析

党中央、国务院历来高度重视安全生产工作，安全生产不仅关系人民群众的生命财产安全，还关系着改革、发展和稳定的大局。目前，我国经济和社会发展水平决定了我国在一段相当长的时

学位

企业管理安全生产移动物联网事故防控

基于HPI在线调参的快速控制原型平台研究

工业产品的快速开发要求采用“V”字形开发。作为“V”字形开发不可或缺的重要组成部分，快速控制原型能大大缩短产品的开发周期。在线调参是快速控制原型开发的关键技术。在线

学位

HPI在线调参并行执行调度程序快速控制原型

蛋白质结构预测中结构构象选择方法研究

与本文相关的学术论文