论文部分内容阅读
蛋白质是一种重要的生物大分子,其结构的预测是后基因组时代生物信息学研究的重要学科之一。蛋白质结构预测就是利用氨基酸一级序列来预测蛋白质的空间构象,它包括蛋白质二级结构预测和三维结构预测。其中二级结构预测的本质是一种模式识别问题,也就是确定氨基酸序列上每个残基对应的二级结构类别。蛋白质三维结构的预测则是确定氨基酸序列上每个残基的空间位置。 蛋白质二级结构预测通常使用的模型是神经网络,其中的关键问题就是提高预测精度,我们首先利用神经网络技术对蛋白质结构的二级结构预测问题中的编码技术进行了研究,提出了两种编码技术。接着通过小波方法对蛋白质二级结构预测问题进行了探讨。对于蛋白质三维结构预测,通常采用的模型是蛋白质格子模型,该模型的折叠是一种NP完备问题,因此提出针对HP序列的快速算法和优化算法是关键,我们借助蛋白质简化的格子模型和计算机模拟的优化算法对蛋白质结构预测问题进行了研究与分析。其间的工作概述如下: (1)神经网络在用于蛋白质二级结构预测时,通常输入序列采用正交编码方式。文中我们提出了两种新的编码技术,即归一化的编码技术和利用数据集中的共有序列子串和一致结构序列作为神经网络预测的输入输出向量的编码模式。通过实验分析和比较,这两种编码方法能充分利用蛋白质的一级结构信息,可用来提高蛋白质二级结构的预测精度。 (2)我们提出了用小波变换方法来进行蛋白质二级结构的预测。该方法通过对固定窗口的带权疏水序列谱实施小波变化分析,以及对结构倾向性因子进行低通过滤来定位蛋白质二级结构区域。该方法能利用蛋白质二级结构螺旋的规律,对蛋白质二级结构进行了测试,最后得到了较好的预测精度。 (3)在蛋白质折叠格子模型的可设计性特征研究中,为了克服以往方格模型具有奇偶问题这一缺点,本文利用三角网格模型来进行穷举搜索。在穷尽搜索算法中,利用二分演化技术、Gray码特性和通过树结构将相似的结构串聚类来实现快速搜索。最后对得到的搜索结果进行了统计分析。 (4) PERM是蛋白质折叠问题中最有效的优化算法。文中我们通过简化其中权重计算公式以及利用不同的残基类型选用不同的上下限系数来改进PERM算法。实验结果表明改进的PERM算法可更快地找到HP序列的最低能量构象。但PERM算法的一个最大的缺点就是该算法对存在远程疏水残基拓扑接触对的HP序列串预测效果不佳。针对这一问题,我们将一种更全面的运动集应用到蛋白质折叠的遗传算法中去,该新的运动集包括旋转和镜象对称。实验结果表明,该新的运动集尤其适用于蛋白质折叠模拟。 简而言之,我们对蛋白质结构预测问题进行了研究与分析,同时针对目前预测中存在的一些问题提出了相应的解决方案并给出了实验结果。但由于蛋白质结构预测问题是一个复杂的开放性课题,其中还有很多问题等待人们去研究与讨论。