论文部分内容阅读
蛋白质是一类重要的生物大分子,是生命活动的主要承担者,在生物体内占有特殊的地位。只有正确折叠成其特定的天然结构,蛋白质才能执行其生物学功能。正确理解蛋白质的折叠机理是当今生物物理学的核心课题之一,不仅具有重要的科学意义,而且在医学及生物工程领域具有极大的应用价值。揭示蛋白质的折叠机理是一项非常具有挑战性的工作,其中一个重要的任务就是确定蛋白质折叠速率的决定因素。迄今,已出现了很多的预测参数和方法。但这些方法的预测精度通常基于小数据集,有着较强的数据依赖性,且氨基酸序列的顺序信息、序列的耦合信息、氨基酸残基间的相互作用对蛋白质折叠速率的影响从未在这些方法中被提及。如果能够充分考虑这些因素的影响,不仅能提高预测精度,还能揭示蛋白质的折叠过程。为此,本文提出了几种基于氨基酸序列的折叠速率预测方法,并对蛋白质的折叠机理进行了分析。本文的主要研究成果有:1、提出了基于遗传算法—神经网络的折叠速率预测方法。为了充分获取氨基酸序列的顺序信息,利用高斯加权函数对编码后的氨基酸序列进行预处理,获取输入神经网络的有效特征向量;为了避免预测算法陷入局部极小,利用遗传算法对神经网络的初始权重进行优化。在Jackknife检验方法的验证下,折叠速率预测值与实验值有着很好的相关性,相关系数为0.80,标准误差为2.65。通过比较分析,该方法优于其它基于一级结构的预测方法。该方法充分利用了氨基酸残基的位置信息提取特征,在一定程度上展示了氨基酸序列的顺序信息对折叠速率的影响。2、提出了基于伪氨基酸组成的折叠速率预测方法。为了提高折叠速率预测的精度,寻找并分析折叠速率的决定因素,首次把伪氨基酸组成的概念用到了蛋白质折叠速率预测领域。伪氨基酸组成可以通过一种离散集合的方式间接地提取到序列的顺序信息,通过基于相关的特征提取方法剔除掉冗余信息,在含有99个非同源蛋白的大数据集上,用线性回归的方法进行预测,用Jackknife方法进行检验,相关系数可达0.81,标准误差仅为2.46。3、提出了基于n阶偶联组成的蛋白质折叠速率预测方法。为了充分考虑氨基酸残基间相互作用的影响,把n阶偶联组成的概念用到了折叠速率预测的领域中。n阶偶联组成不仅包括了传统氨基酸组成的重要特征,还含有氨基酸残基间相互作用的信息。在数据集有限的情况下,用1阶偶联组成提取序列信息,根据特征因子与折叠速率的相关程度提取有效特征,建立线性回归模型进行折叠速率预测,在jackknife方法的验证下,相关系数高达0.88,标准误差仅为2.04。该方法进一步证实了蛋白质序列的顺序信息、氨基酸残基间的相互作用对折叠速率的影响。4、提出了一种基于蒙特卡洛方法的蛋白质折叠速率预测方法。氨基酸残基间的相互作用会使基于相关的特征选择方法受一些主观因素的影响,利用蒙特卡洛方法选择最佳特征因子则是一种比较客观方式。考虑到计算量问题,用伪氨基酸组成进行序列特征提取,建立奇异值分解模型进行折叠速率预测,在Jackknife方法的验证下,相关系数能达到0.83,预测误差也仅为2.39。较之前的预测方法,无论是预测精度,还是标准误差,都有了明显地提高。5、为方便读者快速使用本文所提方法进行折叠速率预测,建立了一个界面友好的网上预测平台。读者只需提供蛋白的氨基酸序列,便可直接得到其折叠速率值,省略了繁琐的建模过程。同时该网络服务能够方便读者对本文所提的方法进行验证、比较,并进行学术交流。所有的方法都能在不需要任何(显示)结构信息的情况下,直接从蛋白质的氨基酸序列出发进行折叠速率预测。它们从不同的角度提取序列的信息,采用不同的特征提取算法建立特征向量,针对不同的数据集,在Jackknife方法的检验下,均取得了较好的预测效果。这充分说明蛋白质的序列顺序信息、氨基酸残基间的相互作用是影响蛋白折叠速率的重要因素。