基于蛋白质结构域预测磷酸化关系算法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:casoncai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质磷酸化是广泛存在的翻译后修饰之一,几乎涉及细胞内所有的生物过程,例如细胞代谢、细胞生长、细胞分化以及信号传导等。磷酸化修饰是指在激酶的催化作用下,将磷酸基团添加到底物蛋白上改变其结构及功能的过程。此外,磷酸化修饰位点的突变或增删等都有可能导致蛋白质功能异常,从而导致各种复杂疾病的发生,目前已经有一些激酶蛋白被当作药物靶标来治疗癌症。随着实验技术的发展,大量的磷酸化位点信息被挖掘出来,然而它们对应的蛋白质激酶信息却极度匮乏,而一些计算方法的出现在一定程度上促进了磷酸化位点所缺失激酶信息的查验。这些方法大部分都是基于磷酸化位点周围的序列信息,结合蛋白质的共表达、位置共现以及相互作用等特征,应用机器学习算法例如支持向量机、决策树、贝叶斯网络等实现磷酸化关系的预测。尽管已经取得了一定进展,但是这些方法的局限性在于它们在不同数据集上表现不一,预测精度和鲁棒性都有待进一步提高。因此,有必要开发新的计算方法研究磷酸化关系预测问题。在本文中,我们提出一个新的计算模型,命名为PhosD,进行磷酸化关系预测。研究表明,作为蛋白质上独立的结构和功能单元,蛋白质结构域往往更稳定和保守,可以表征所在蛋白质的很多属性。那么,被相同激酶磷酸化的底物蛋白是否会具有相似的蛋白质结构域特征值得探究。因此,本文提出一个生物假设:激酶是通过识别底物蛋白上的特异结构域单元来完成和底物蛋白的磷酸化反应。基于该假设,PhosD首先通过已知的磷酸化关系数据,提取并刻画激酶和蛋白质结构域之间的相互作用模式,而该模式就是PhosD进行磷酸化关系预测的基本特征;然后,对于一个特定的激酶,那些包含该激酶特异磷酸化结构域的蛋白质被当作候选底物蛋白,PhosD用一个适当的概率模型来衡量候选底物蛋白被该激酶磷酸化的可能性。最后,考虑到磷酸化过程在本质上是一种特殊的蛋白质相互作用,所以将丰富的蛋白质相互信息集成到PhosD模型中,进行一个“二次过滤”操作从而进一步优化预测结果。通过与现有常用的六种计算方法在四个不同的测试集上进行比较,PhosD都表现出更好的预测性能,尤其在预测精确率上显著高于其它方法。此外,进一步的结果分析得到了两个重要的结论:首先,激酶已知的磷酸化底物蛋白越多,越有助于学习模型的建立从而获得更好的预测性能;其次,我们发现相比较于只被一个激酶磷酸化的底物蛋白,被多个激酶磷酸化的底物蛋白,其所包含的磷酸化蛋白质结构域往往更保守,从而该类磷酸化关系更容易被预测出来。这两个结论的发现可以为其它磷酸化关系预测算法提供参考。最后,通过分析新预测得到的磷酸化关系在信号通路上所扮演的重要角色,我们进一步证明了PhosD的预测能力,同时也展示了磷酸化关系在信号传导过程中的生物意义。
其他文献
传统的机器学习是基于统计学的机器学习,其中一个基本的假设条件就是训练和测试数据来自相同的特征空间并且具有相同的概率分布。然而,在很多实际应用中,这种假设往往并不成
研究背景:气管移植是解决如原发性气道狭窄、气管粘膜损伤、气管肿瘤等疾病的主要手段。而气管移植后管腔大量纤维结缔组织生成,阻塞气管畅通,容易导致移植的失败,因此制约气
石碌含笑(Michelia shiluensis Chun et Y.F.Wu)为木兰科含笑属常绿乔木,为海南特有树种和国家Ⅱ级濒危保护植物。野外调查仅见分布于白沙、昌江、陵水、五指山等地海南中南部山区,资源分布狭窄,野生种群数量稀少,具有重要的科研和保护价值。本研究以石碌含笑为研究对象,在对石碌含笑野外种群开展全面调查的基础上,选择生长状况最为良好的吊罗山分布点开展该树种生殖生态学和种群及群落结
当前,人们对于复杂网络的研究已经成为一个新兴的话题。现实世界的诸多复杂系统都可以利用复杂网络进行表示,例如:社会关系网络,交通运输网络,神经网络,通信网络等等。网络鲁
利用多传感器组网获取监视区域中各种信息是实现实时检测、目标定位、跟踪与识别的一种重要手段,被广泛应用于智能监控、低空飞行器、无人驾驶和移动机器人等诸多领域。尤其在大范围监视空域,由低空雷达、光学传感器以及广播式自动相关监视(ADS-B)设备等构建的多传感器跟踪系统及其相关技术,日益受到国内外广泛关注。在实际中,由于传感器性能差异、目标运动模式、目标个数的不断改变、监测环境的动态变化及组网系统数据处
基于种群的进化算法在一次运行中能够产生一组近似的Pareto最优解集,因此多目标进化算法成为处理多目标优化问题中的主流方法。基于分解的多目标进化算法(MOEA/D)将一个多目
随着移动互联网技术的发展,位置相邻用户之间的数据通信业务也在逐渐增多,所以,用户设备之间的直接通信(D2D)技术正在受到越来越多的关注。本文通过对移动蜂窝网中的D2D通信
DNA作为长期存储生物遗传信息的载体记录着具有极高研究价值的基因数据。而近几年,随着下一代测序(next-generation sequencing,NGS)技术的高速发展,海量的DNA数据不断的涌现
诺如病毒(Norovirus,NoV)是引起世界范围内急性胃肠炎的主要病原体之一,造成严重的公共卫生问题和经济负担。流行病学研究表明GⅡ.4是全球优势流行株,每隔1-3年便出现新的变异株,占到全部NoV感染的85%,而其他基因型NoV则以局部暴发和散发为主。由于NoV基因型别众多,对于NoV疫苗的研制是一个巨大的挑战。迄今为止,尚无针对NoV的特效药物和疫苗。为了研制广谱NoV疫苗,Parra等人
拥有多层基站部署的异构网络被认为是第五代移动通信系统(the fifth generation mobile networks,5G)的核心技术之一。与传统同构网络相比,异构网络能够填补基站覆盖漏洞,有