论文部分内容阅读
蛋白质结构和功能预测是后基因组时代的重要研究内容,它不仅需要生物学者为之奋斗,同时为数学、计算机科学、信息科学、物理学、系统科学和管理科学等学科提出了挑战。围绕这一主题,本文进行了一些研究和讨论。主要研究成果如下: 1.利用氨基酸序列预测蛋白质结构可以归结为一个复杂系统的全局优化问题,建立一个合理的预测模型是关键性的第一步。预测模型的目标函数通常采用基于物理理论的经验势能函数或基于统计理论的平均势能函数。深入研究了这两类势能函数的特点,系统分析了一个具有综合特点的联合残基势能函数,建立了四个预测模型,目标函数分别包含不同的能量项,可以分析比较它们对预测结果的影响。 2.计算时间是蛋白质结构预测中的主要问题,在常规的最优构象搜索过程中,采用经典优化算法的能量极小化过程需耗用95%以上的计算时间。针对蛋白质结构预测模型中目标函数多变量、多极值的特点和现有算法的不足,提出了一种改进的连续函数模拟退火算法。该算法比现有算法具有更好的收敛性,可以有效地解决3000个变量的连续函数全局优化问题。该算法被应用于脑啡肽和牛胰岛素B/D链的结构的预测,得到了合理的结果;避免了局部能量极小化过程,节省了构象搜索过程的计算时间。用一种简洁的方法分析了算法的收敛性。 3.现有的蛋白质结构类预测方法大多没有考虑氨基酸残基的排列顺序,从而使预测质量受到限制。本文结合子序列分布和FDOD函数,给出了一种新的蛋白质结构类预测方法,和现有的预测方法相比,它考虑了氨基酸残基的排列顺序,从而显著提高了预测精度,与张春霆院士的最新结果相比,两类检验的总预测精度分别提高了3.3%和5.3%。同时它不需要引入其它物化参数,且计算简单快速,作为一种新的多序列比较工具还可以用于其它问题的研究。建立了一个序列冗余性低于30%的数据集,利用该数据集验证了本文方法对于非同源蛋白质的敏感性,并分析比较了子序列长度对预测精度的影响。 4.支持向量机(SVM)是近年来迅速发展的一种机器学习方法,它在蛋白质亚细胞定位预测中得到了成功的应用,预测能力明显优于其它预测方法。基于FDOD函数和氨基酸组成,本文构造了一种新的蛋白质亚细胞定位预测方法,预测结果与支持向量机等方法预测结果进行了比较,对于真核生物蛋白质总预测精度比支持向量机方法得到的结果高2.6%,对于原核生物蛋白质预测结果基本一致。重点分析了预测结果和细胞结构分类的关系,构造了层次预测 博士学位论文:蛋白质结构预测方法研究 方法,这不仅能够帮助我们进一步了解氨基酸组成与蛋白质定位的关系,而 且能够根据对蛋白质不同层次的了解更灵活地进行预测。5.总结了不同氨基酸序列的特征描述方法,以FDOD函数作为判别函数,比较了 其中几种描述方法对蛋白质结构类和亚细胞定位预测结果的影响。在蛋白质 结构类预测中,考虑氨基酸残基不同的物化性质可以作为氨基酸组成的补充, 提高预测精度:然而,残基在序列中的顺序可以更好地描述序列与结构类之 间的关系,尤其是抓…和。+g类蛋白质对残基顺序更敏感。在蛋白质的亚细 胞定位预测中,氨基酸组成仍然是最重要的特征,蛋白质的亚细胞位置与序 列同源性的关系没有结构与序列同源性的关系强。另外氨基酸指数在亚细胞 定位预测中可以作为氨基酸组成的补充,提高预测精度。