论文部分内容阅读
计算机和网络技术的飞速发展,为分子生物学研究提供了新的强大于段。蛋白质功能位点的预测因其在医学特别是在揭示生命奥秘、功能蛋白质组学研究方面具有重要意义,引起了生物和医学工作者的极大关注。利用生物实验手段获取蛋白质功能位点是非常耗时耗力的,这就要求我们借助于计算的手段从序列预测其功能位点。对于蛋白质翻译后的磷酸化修饰位点和酶的催化活性位点的预测问题,本文提出了两个基于智能计算模型的预测方法。其主要内容和贡献包括:
(1)蛋白质磷酸化位点预测蛋白质磷酸化作为翻译后修饰的一种,目前常见的预测方法主要有基于组的GPS方法、基于Bayes决策论的PPSP方法和基于支持向量机(SVM)方法和隐马尔可大方法(HMM)等机器学习方法,它们基本都依赖于序列保守性特性。本文提出了融入蛋白质结构信息的基于BP神经网络模型的预测方法。有关文献表明,磷酸化位点更倾向于出现C(Coil)形式二级结构和B(Buried)形式三级结构。我们实验评价标准MCC的值为0.87,优于Scansite2.0和PredPhospho预测方法。在此基础上,我们进一步提出了两阶段神经网络模型的预测方法,第二阶段的模型去提炼第一阶段的结果,对于蛋白激酶PKA,我们得到的灵敏度和特异性分别为93.26%和94.14%。
(2)酶的活性位点预测酶作为一种特殊的蛋白质,对化学反应起到加速催化作用。它的催化活性位点是这一功能的重要参与残基。到目前为止,关于活性催化位点的预测有多序列比对方法、计算几何方法、演化跟踪方法以及能量函数计算方法等,但是都没有给出令人满意的结果。本文提出了基于朴素贝叶斯模型的方法,并且使用了新的残基二级结构属性,给出了比较满意的预测精度和时间效率,灵敏度和特异性分别为:88.6%,93.7%。实验证实了恰当的模型选择、充足的数据集以及合适的输入属性(残基属性)对提高预测精度和时间效率都起到积极作用。
本文工作的特色和创新在于:①考虑到了结构和功能的关系,融入二级结构和二级构信息,并且给出了一定的简化表示方法。对于二级结构我们只考虑了H、E、C三种状态;三级结构也只考虑了E、B两种状态。除此以外,在神经网络基础上,增加到两个阶段,并且融入了磷酸化修饰的模体信息,第二阶段对第一阶段的结果进行了提炼;②首次运用朴素贝叶斯统计分类模型来解决酶的活性位点预测问题。在其输入参数中,不仅充分考虑到了序列保守性特征,而且更多的结构信息、残基生化属性也被考虑。七种状态较为详细地描述了氨基酸的二级结构。关于三级结构,我们从更多的角度体现它,使用了残基溶剂可访问性值、表面裂口信息以及反映残基弹性的B-Factor值。这个模型和方法给我们预测其他功能位点(磷酸化位点、蛋白质与蛋白质相互作用位点)提供了很好的参考,同样适合他们的预测。