基于核心结构的蛋白质结构预测算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:A2335767
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学的目标是"认识细胞内蛋白质种类、定量地测定细胞内蛋白质表达量以及认识蛋白质的生化功能".众所周知,蛋白质功能与其空间结构有着密切关系,因此,测定或者推测蛋白质结构是实现蛋白质组学目标的重要手段.然而由于蛋白质结构实验测定方法的局限性,使得用计算方法由蛋白质序列出发推测其三维结构,成为了一个重要的研究方向,它对于探究蛋白质功能有着至关重要的意义. 近几十年来,蛋白质空间结构预测研究取得了较大的进展.其中同源建模方法是结构预测方法中较为成功的一种策略,业界已基于此策略开发了多种实用软件.然而,为了进一步提高结构预测的精度,就必须克服基于模板方法的两个缺陷:结构模板的数量不足,目标一模板比对算法的准确性不足.本文的研究动机即为克服上述两个缺陷. 本文研究的指导思想是"将蛋白质整体结构细化为结构域,以及结构域内的核心结构,来更好地描述结构的特征".本文使用核心结构来扩充模板数量,即在蛋白质结构域聚类分析的基础上,为每个结构域提取一个(或多个)能体现该结构域结构拓扑和氨基酸组成特点的结构,通过对核心结构的组合得到更多的模板.基于核心结构构造出一个新的序列与模板比对的计算模型,并设计一个动态规划算法来解决这个计算问题,最终提高同源建模方法的预测准确度. 本文的创新性工作包括如下几个方面: 1)在模板扩展方面:提出了一个新的蛋白质结构域核心结构提取算法; 通过对结构域的分析,我们决定首先每个结构域划分为保守区域和非保守区域,分别求其核心结构.划分保守/非保守区域的方法是,采用基于统计的机器学习方法训练出划分的这两个区域的阈值,然后由一个基于滑动窗口的算法识别出保守区域,通过聚类的方法能得到每个区域的核心结构.由于非保守区域的核心结构并不唯一,因此,通过组合可以得到更多的模板. 2)在模板表示方面:提出一种新的profile构造方法; 基于结构域聚类模板数据库,提出一种加入结构信息的基于profile的序列比对算法用于模板识别.该方法用统计的方法得出结构与氨基酸构成之间的关系,综合了结构域的序列和结构的信息,通过为每个结构域建立基于profile的打分矩阵,最终利用smith-Waterman动态规划算法实现了模板选取的比对算法.实验结果表明,该算法在我们的数据库上的查询正确率比传统的序列比对算法好. 3)在序列一模板比对方面:设计了一种求解最优比对的动态规划算法: 在核心结构的基础上提出一个新的目标序列与模板的比对算法.通过对不同区域内的核心结构构造不向的基于profile的打分函数,我们设计了一个新的计算模型,该模型兼具挑选非保守区域模板和构造比对的功能.我们设计了一种动态规划算法来实现该计算模型,该算法的计算复杂度为O(kmN).通过实验得知,与其他比对算法相比较,基于核心结构的比对算法准确性较高. 本文最后挑选了一些有代表性的测试数据集,用当前使用比较广泛的软件进行测试对比,实验结果表明核心结构的方法能够提高模板与查询序列之间的比对准确度,并且能够为目标序列构造更为合适的模板,是同源建模方法的一个有效进展.
其他文献
模块级验证是当代微处理器功能验证的重要环节.模块级验证针对各类不同模块的特点,选取合适的验证策略,或者将绝大部分bug在模块级发现出来,或者证明模块的正确性.模块级验证
GRAPES(Global/Regional Assimilation and Prediction Enhanced System)是由中国气象科学研究院数值预报研究中心自主开发的新一代静力/非静力多尺度通用数值预报模式。GRAP
学位
自从1988年的莫里斯蠕虫事件以来,入侵一直被视为计算机信息系统安全面临的最大威胁。近年来,一种新的计算机安全技术被广泛的关注和研究——计算机取证。计算机取证技术萌芽于
学位
数据流(Data stream)已成为计算机科学与工程研究领域的一个热点,其研究范围横跨复杂性理论,算法,数据库,网络及数据挖掘等领域.在数据流模型中,一个可能无限长的数据序列以
大量面向事务处理的应用系统的开发使企业逐渐积累了丰富的数据资源,为了充分利用这些数据资源来辅助企业进行有效的商业决策,迫切需要一种切合企业实际需求的面向分析和查询的
学位
学位
随着Internet规模的爆炸性增长以及向综合业务支持方向的不断演进,Internet遇到了在设计初期根本没有预料到的问题和困难。为了构建下一代网络,Internet的体系结构需要某种根本
学位
无线射频识别(RFID)技术是一种非接触式的自动识别技术,支持对RFID标签的移动识别、多目标识别等。这里,RFID标签携带物品的编码和其他数据等一系列RFID信息,并可随物品移动。发
学位
科学数据是人类社会科技活动所产生的基本数据、资料,以及按照不同需求而系统加工的数据产品和相关信息,具有明显的潜在价值和可开发价值,并在应用过程中得以增值,是信息时代最基
学位
科学数据是科学活动中最宝贵的资源之一,也是对于大多数科学家最重要的资源之一,如何尽可能充分地利用这些资源,使科学数据在科学家的创新活动中发挥尽可能大的作用,这是科学数据
学位