论文部分内容阅读
当前,蛋白质序列数据库以很快的速度增长,而蛋白质结构测定的实验技术却很慢,因此使用计算方法来预测蛋白质结构成为缩小序列测定和结构测定之间速度鸿沟的重要方法。蛋白质结构预测中的一个重要步骤是如何评价蛋白质结构构象的质量。蛋白质构象评测也称为蛋白质结构构象选择,即对蛋白质构象进行打分,以衡量其与真实结构的相似性。在蛋白质结构预测算法中,特别是Ab initio的方法,往往会对同一个序列产生成千上万个预测构象,即使其中包含与真实结构很相似的构象,却经常面临挑选不出来的困境。目前主要有三种类型的打分方法,即基于物理学的能量函数、基于统计的势函数与基于机器学习的打分函数。基于物理的能量函数是利用了量子力学原理来设计的;基于统计的势函数是利用氨基酸的一些统计属性来设计的,这些属性包括氢键、二级结构、分子间两两距离等等;第三种基于机器学习技术的打分函数是利用神经网络或支持向量机的方法,将第一种与第二种打分函数中的能量项作最优组合。当前的蛋白质结构构象评测方法还存在着种种不足,比如:有些打分函数对差别较大的构象(很好的与很坏的构象)有自己的优势,但对于差别较小的构象却无能为力;有些能够区分真实构象(天然构象)与预测构象,但怎样从预测构象中挑选出与天然构象最相近的构象却表现不好。
本文对蛋白质结构构象选择的机器学习方法进行了研究。基于ROSETTA的能量项,通过重新对每一个能量项赋予不同的权重,使得天然构象和预测构象能够很好的区分,同时使得分不同的构象也尽量分开。使用整数线性规划和支持向量机回归的方法来求解参数训练问题。在两个数据集上进行了测试:一个是由FALCON为6个蛋白质产生的6000个构象,另一个是由ROSETTA产生的6000个构象。本文作者将每个数据集分为训练数据和测试数据,训练数据用来训练能量项的最优权重。本文作者做了三项实验:①对测试数据集合中的构象,求出能量函数值与构象质量(以Tmscore表示)的相关性,并以此相关性来衡量求出的权重是否有助于构象选择;②将训练获得的权重替代ROSETTA中的默认权重,利用改写权重之后的ROSETTA重新生成2000个构象,比较不同权重的ROSETTA产生构象的质量;③最后使用训练获得的能量函数对CASP8的预测结果进行构象选择,并评价选择结果。结果表明:设计的整数线性规划方法对于ROSETTA产生的数据集是有效的,能够改善预测打分与真实打分的相关性,对某些蛋白质(如lenh),训练得到的权重能够改善ROSETTA生成构象的质量,在CASP8数据集上,训练得到的新能量函数能够改善构象选择的性能。