蛋白质结构预测的算法和模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:stefanie888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一种重要的生物大分子,其结构的预测是后基因组时代生物信息学研究的重要学科之一。蛋白质结构预测就是利用氨基酸一级序列来预测蛋白质的空间构象,它包括蛋白质二级结构预测和三维结构预测。其中二级结构预测的本质是一种模式识别问题,也就是确定氨基酸序列上每个残基对应的二级结构类别。蛋白质三维结构的预测则是确定氨基酸序列上每个残基的空间位置。  蛋白质二级结构预测通常使用的模型是神经网络,其中的关键问题就是提高预测精度,我们首先利用神经网络技术对蛋白质结构的二级结构预测问题中的编码技术进行了研究,提出了两种编码技术。接着通过小波方法对蛋白质二级结构预测问题进行了探讨。对于蛋白质三维结构预测,通常采用的模型是蛋白质格子模型,该模型的折叠是一种NP完备问题,因此提出针对HP序列的快速算法和优化算法是关键,我们借助蛋白质简化的格子模型和计算机模拟的优化算法对蛋白质结构预测问题进行了研究与分析。其间的工作概述如下:  (1)神经网络在用于蛋白质二级结构预测时,通常输入序列采用正交编码方式。文中我们提出了两种新的编码技术,即归一化的编码技术和利用数据集中的共有序列子串和一致结构序列作为神经网络预测的输入输出向量的编码模式。通过实验分析和比较,这两种编码方法能充分利用蛋白质的一级结构信息,可用来提高蛋白质二级结构的预测精度。  (2)我们提出了用小波变换方法来进行蛋白质二级结构的预测。该方法通过对固定窗口的带权疏水序列谱实施小波变化分析,以及对结构倾向性因子进行低通过滤来定位蛋白质二级结构区域。该方法能利用蛋白质二级结构螺旋的规律,对蛋白质二级结构进行了测试,最后得到了较好的预测精度。  (3)在蛋白质折叠格子模型的可设计性特征研究中,为了克服以往方格模型具有奇偶问题这一缺点,本文利用三角网格模型来进行穷举搜索。在穷尽搜索算法中,利用二分演化技术、Gray码特性和通过树结构将相似的结构串聚类来实现快速搜索。最后对得到的搜索结果进行了统计分析。  (4) PERM是蛋白质折叠问题中最有效的优化算法。文中我们通过简化其中权重计算公式以及利用不同的残基类型选用不同的上下限系数来改进PERM算法。实验结果表明改进的PERM算法可更快地找到HP序列的最低能量构象。但PERM算法的一个最大的缺点就是该算法对存在远程疏水残基拓扑接触对的HP序列串预测效果不佳。针对这一问题,我们将一种更全面的运动集应用到蛋白质折叠的遗传算法中去,该新的运动集包括旋转和镜象对称。实验结果表明,该新的运动集尤其适用于蛋白质折叠模拟。  简而言之,我们对蛋白质结构预测问题进行了研究与分析,同时针对目前预测中存在的一些问题提出了相应的解决方案并给出了实验结果。但由于蛋白质结构预测问题是一个复杂的开放性课题,其中还有很多问题等待人们去研究与讨论。
其他文献
网络管理是网络发展中一个很重要的关键技术,对网络的发展有很大的影响,并已成为现代通信网络中最重要的问题之一.TCP/IP网络技术在网络系统的广泛使用促使了网络管理的产生
学位
满文作为清代的官方方案,在中国的历史上曾经起着重要的作用.满文文献的研究对于研究清代及伪满洲国时期的科学和文化具有重要意义.基于这个目的,辽宁省档案馆与该研究室联合
学位
随着Internet的进一步发展及其在全球的迅速蔓延,引发了对传统教育模式的新一轮革命.该文提供了一个较完善的基于Internet的现代远程教育系统.该文设计实现了基于WWW的远程教
生物科学技术与计算机科学技术的迅速发展,孕育了一门新的学科——生物信息学。特别是人类基因组计划(Human Genome Project,HGP)的顺利实施和完成,极大地推动了这门新生学科的
学位
遗传算法作为一种启发式搜索算法,在科学研究、工程技术等众多领域有着广泛的应用。但由于现有的遗传算法在求解某些优化问题时,通常存在搜索效率不高的问题,因而使遗传算法在实
该文介绍了分布式多媒体数据库系统的现状,给出了分布式野战综合数据库的系统设计,深入研究了面向野战信息的分布式数据库辅助设计工具的实现方法,多媒体数据的存取、检索、
该文是上海交通大学金桥网络工程中心开发的基于SNMP的网络管理系统展开的一系列研究课题中的一个,其主要内容是企业级网络互连模型的拓扑生成与拓扑显示.近几年来,企业网络