论文部分内容阅读
G蛋白偶联受体(G-protein-coupled receptor,简称GPCR)是人体内最大的信号传导蛋白质超家族。目前,世界前200个最畅销药物中超过10%都是以GPCR为靶点。GPCR的七个α螺旋反复穿越生物膜,这种特殊结构导致核磁共振和X射线晶体衍射等生化方法难以获得GPCR的三维结构,而GPCR高分辨率三维结构却是开启GPCR结构与功能关系的钥匙。由此许多科学家开始研究用计算机方法预测GPCR的三维结构,但这项研究也极具挑战性。将GPCR三维结构预测问题转化为计算优化问题后,主要存在三个难点:缺少直接先验知识;各种能量函数(目标函数)、搜索算法都有用,但都不准确;准确建模GPCR的结构拓扑困难。本文在前期研究通用蛋白质三维结构的并行元启发预测方法基础上,针对上述难点,着重研究了GPCR三维结构计算机预测方法链中的三项关键技术,并实践了以结构预测技术为核心的在线服务平台建设。第一项是基于序列信息的低层结构拓扑预测技术。本文针对GPCR低层结构拓扑预测中的两个子问题,引入序列信息后,分别提出了一种序列相关支持向量机的β桶状跨膜区预测方法与一种依据序列相似性的形变角度连续建模方法。在跨膜区预测子问题中,将氨基酸的理化特征融入到序列的组分特征中,结合支持向量机分类算法,构建了一种新颖的分类模型,能够更加有效地刻画跨膜蛋白序列中所蕴含的特征信息。在螺旋形变结构拓扑预测子问题中,根据序列相似性进行聚类后,对不同的类用连续概率模型进行参数估计与采样。最后,设计多组实验,验证在预测中融入序列信息可以帮助提高低层结构拓扑的预测精度。第二项是基于高层结构拓扑的螺旋束结构建模技术。本文针对GPCR七跨膜螺旋的空间结构特点,建立了基于结构的拓扑模型,并利用该模型形成了四阶段的结构优化方法,同时引入基于结构拓扑的约束与能量项,起到剪裁采样空间与提高搜索效率的作用,有效地预测了GPCR跨膜螺旋的三维结构。随后在三组独立数据集上的实验表明,本方法较pGPCR、GPCRDock2010的各参赛小组、著名同源建模系统Swiss可获得更多的高精度构象。第三项是复合物柔性结构并行建模技术。本文依据GPCR-配体对接时的配体相关性,提出两种柔性优化协议,并将两者融合,提出一种混合柔性优化协议coREFo配体无关的柔性模拟以Backrub运动模型为基础,通过多种骨架运动方式的并行化,实现受体界面残基的柔性建模,使模拟更接近于蛋白质的天然运动方式。配体有关的柔性模拟拓展了RosettaLigand对接算法,弥补了RosettaLigand未考虑不同的配体结构所引起的柔性也有所差异的不足。在两组验证实验中,coREF成功优化了GPCRDock2010参赛队提交的20个构象,并在大部分目标上较RosettaLigand获得了更低的LRMSD。另外,本文还利用实验室的现有计算资源,设计了由前端节点、瘦节点和胖节点构成的分布式在线结构预测服务平台。现今,我们提供蛋白质骨架预测和蛋白质侧链预测两种在线服务。本文的创新点主要表现在:在低层结构拓扑预测中,引入新的知识(螺旋序列信息)后,给出一组序列相关的理化新特征与一种建模序列中各种同源性的新思路;提出基于结构拓扑模型的螺旋束结构建模与采样算法,改变了传统方法中的几何约束知识的“硬”使用方式,“软”性使用几何约束与新的能量项;将多种骨架运动交替执行的“伪并行”方式转变为“真并行”方式,并将配体无关柔性与配体有关柔性模拟相结合,从而给出了一种复合物柔性结构模拟的新方法。