论文部分内容阅读
蛋白质磷酸化是广泛存在的翻译后修饰之一,几乎涉及细胞内所有的生物过程,例如细胞代谢、细胞生长、细胞分化以及信号传导等。磷酸化修饰是指在激酶的催化作用下,将磷酸基团添加到底物蛋白上改变其结构及功能的过程。此外,磷酸化修饰位点的突变或增删等都有可能导致蛋白质功能异常,从而导致各种复杂疾病的发生,目前已经有一些激酶蛋白被当作药物靶标来治疗癌症。随着实验技术的发展,大量的磷酸化位点信息被挖掘出来,然而它们对应的蛋白质激酶信息却极度匮乏,而一些计算方法的出现在一定程度上促进了磷酸化位点所缺失激酶信息的查验。这些方法大部分都是基于磷酸化位点周围的序列信息,结合蛋白质的共表达、位置共现以及相互作用等特征,应用机器学习算法例如支持向量机、决策树、贝叶斯网络等实现磷酸化关系的预测。尽管已经取得了一定进展,但是这些方法的局限性在于它们在不同数据集上表现不一,预测精度和鲁棒性都有待进一步提高。因此,有必要开发新的计算方法研究磷酸化关系预测问题。在本文中,我们提出一个新的计算模型,命名为PhosD,进行磷酸化关系预测。研究表明,作为蛋白质上独立的结构和功能单元,蛋白质结构域往往更稳定和保守,可以表征所在蛋白质的很多属性。那么,被相同激酶磷酸化的底物蛋白是否会具有相似的蛋白质结构域特征值得探究。因此,本文提出一个生物假设:激酶是通过识别底物蛋白上的特异结构域单元来完成和底物蛋白的磷酸化反应。基于该假设,PhosD首先通过已知的磷酸化关系数据,提取并刻画激酶和蛋白质结构域之间的相互作用模式,而该模式就是PhosD进行磷酸化关系预测的基本特征;然后,对于一个特定的激酶,那些包含该激酶特异磷酸化结构域的蛋白质被当作候选底物蛋白,PhosD用一个适当的概率模型来衡量候选底物蛋白被该激酶磷酸化的可能性。最后,考虑到磷酸化过程在本质上是一种特殊的蛋白质相互作用,所以将丰富的蛋白质相互信息集成到PhosD模型中,进行一个“二次过滤”操作从而进一步优化预测结果。通过与现有常用的六种计算方法在四个不同的测试集上进行比较,PhosD都表现出更好的预测性能,尤其在预测精确率上显著高于其它方法。此外,进一步的结果分析得到了两个重要的结论:首先,激酶已知的磷酸化底物蛋白越多,越有助于学习模型的建立从而获得更好的预测性能;其次,我们发现相比较于只被一个激酶磷酸化的底物蛋白,被多个激酶磷酸化的底物蛋白,其所包含的磷酸化蛋白质结构域往往更保守,从而该类磷酸化关系更容易被预测出来。这两个结论的发现可以为其它磷酸化关系预测算法提供参考。最后,通过分析新预测得到的磷酸化关系在信号通路上所扮演的重要角色,我们进一步证明了PhosD的预测能力,同时也展示了磷酸化关系在信号传导过程中的生物意义。