蛋白质结构片段库构建算法及其在结构预测中的应用

来源 :清华大学 | 被引量 : 0次 | 上传用户:jpyssy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构从头预测作为结构生物学领域最为重要和最具挑战性的问题之一,是蛋白质分子从无规则结构逐步折叠成天然态构象的过程。蛋白质结构从头预测的研究对理解蛋白质折叠机理和了解蛋白质构象的动态变化与功能行使之间的关系具有重要的意义。作为从头开始结构预测的主要组成部分,高效的构象搜索算法和精确的势能函数是结构预测模型准确性的重要保证。伴随着Rosetta程序的巨大成功,近二十年以来,片段组装法已经成为最为流行的构象搜索算法。片段组装法根据预先构建的蛋白质结构片段库,在折叠模拟的过程中选定目标蛋白质的一段片段,将其构象替换成片段库中模板片段的构象。因此,结构片段库的质量是决定构象搜索算法效率和结构预测模型准确性的重要基础。近十年以来,一方面,机器学习特别是深度学习技术取得了突破性的发展,循环神经网络和卷积神经网络等深度学习架构被陆续提出。另一方面,在结构预测领域,除了传统的二级结构预测,蛋白质残基对接触信息和多种肽链二面角等其他低维度结构特征的预测也取得了很大的进展。全新机器学习技术的出现和蛋白质低维结构预测准确率的提升为蛋白质结构片段库算法的设计提供了良好的条件。在本研究中,我们首先基于逻辑回归模型设计了蛋白质结构片段库构建算法LRFragLib。LRFragLib利用一级序列、氨基酸的理化性质和二级结构信息作为特征,为目标蛋白搜索7-10个残基的模板片段。与其他优秀的算法相比,LRFragLib算法显著地提升了片段库中近天然态片段的比例,并结合从头开始的结构预测程序,预测出更为准确的蛋白质模型。随后,我们基于LRFragLib产生的结构片段库为蛋白质从头折叠程序REMC设计了主链二面角置换模式FragMove。FragMove的加入,全面提升了 REMC程序预测模型的二级结构和三维结构的准确率并加快了构象搜索的过程。在第三阶段的研究中,我们利用最新的深度学习技术,设计了构建7-15个残基模板片段的DeepFragLib算法。DeepFragLib由基于双向LSTM网络并经知识蒸馏技术压缩的分类模型模块、基于ResNeXt架构并含有我们设计的周期空洞卷积层的回归模型模块和片段选择模块组成。系统的实验分析表明,DeepFragLib算法的表现全面超过了包括LRFragLib在内的其他片段库构建算法。更重要的是,通过对其与Rosetta结合产生的结构预测模型分析,DeepFragLib算法有效地提升了蛋白质结构预测的准确性。
其他文献
水文集合预报可以给出预报量的统计分布,定量描述预报信息的不确定性。随着气象集合预报技术的发展,基于气象预报信息的水文集合预报,已经成为水文预报研究与应用的发展方向。根据气象预报地面验证的评估结果,欧洲中期天气预报中心(ECMWF)的气象集合预报产品在中国区域具有较好的预报性能,但其在水文预报中的性能尚缺乏系统研究。论文基于ECMWF System 4气象集合预报产品构建了中长期径流预报系统,评估了
了解微生物之间以及微生物与环境之间如何交互是微生物生态学重要的研究课题。但是由于传统的基于实验室培养的研究方法的限制,生物学家对真实环境中微生物群落内部的交互了解甚少。宏基因组测序技术的发展使得研究者可以通过分析微生物的基因序列来了解真实环境中微生物的组成和丰度,然后利用关联推断算法来帮助分析微生物群落中复杂的交互作用。然而测序数据产生过程和微生物交互的复杂性为关联推断算法的设计带来了一系列挑战。
雅鲁藏布江地处青藏高原,是低纬高海拔寒区流域,其径流由融冰、融雪和降雨多种成分构成,受气候变化的影响复杂,未来变化趋势具有较强的不确定性。探究径流成分的形成机制和解析方法,揭示雅鲁藏布江流域气候变化条件下的径流变化规律,对科学开发利用水资源和水能资源具有重要意义。针对雅鲁藏布江径流形成和演变规律这一关键科学问题,构建了青藏高原东南部区域夏季融合降雨数据集,应用基于流量过程线的径流组成解析方法,构建
季节内振荡(Madden Julian Oscillation,MJO)作为热带气候系统极为重要的组成部分,以其特别的时间尺度桥接了天气和气候变化,因而MJO现象的准确模拟和预测尤为重要。观测研究表明非绝热加热的垂直结构对MJO发展至关重要,特别是加热廓线中缺少高层峰值加热被认为是MJO模拟较差的关键因素。本文通过修正对流加热垂直廓线形状,使其包括高层峰值加热及低层冷却的中尺度对流系统中层云加热结
神经冠(neural crest)细胞是脊椎动物特有的在胚胎发育过程中的一种细胞群,神经冠细胞位于神经胚的神经管两侧,具有多潜能,可以进行长距离迁移,在生物体的不同位置发育出包括颌面骨骼、色素细胞、感觉神经元、胶质细胞等多种类型的细胞。神经冠是脊椎动物进化发育史上的一次飞跃,提高了脊椎动物的猎食能力和对环境的适应能力。为了研究神经冠细胞的进化起源,本论文以神经冠细胞形成及发育背后的基因调控网络为切
降水与水汽模拟正确与否是反映全球气候模式模拟可靠性的重要指标,其偏差归因分析对改进模式性能有着重要意义。本研究重点关注热带地区的降水与水汽偏差,以及它们与大尺度环流和对流之间的联系。通过与再分析资料和观测资料的对比,四个代表性的CMIP5模式的降水和水汽模拟情况得到了评估。结果表明所有模式都高估了热带地区降水量,而水汽的垂直分布则因模式而异,但所有模式都高估了对流层水汽年际变化受地表水汽变化的影响
R-loop生物学是近几年广受关注的研究热点,作为基因组上的一种特殊的染色体结构,R-loop由一条RNA:DNA杂合链和一条单链DNA组成。基因组上的R-loop结构参与多种生理过程,并影响基因组稳定性,因此R-loop水平的控制对基因组稳定性的维持至关重要。尽管大量研究表明R-loop广泛存在于多个物种中,但是目前为止在植物叶绿体中的研究还很少。为了研究R-loop对叶绿体基因组稳定性影响的分
镜像生物学系统作为一门新生的生物学领域,目前在生物医学等行业展现了非常大的应用前景。例如它可以用于构建新的镜像中心法则以及用于镜像核酸适配体药物的筛选。但在这一个领域的发展构建过程中面临着一个重大的阻碍,即缺乏合适的镜像DNA测序技术。尽管如今测序技术已经取得了巨大的发展,但没有报道表明现有的测序技术是能够应用到镜像DNA的序列测定的。由于缺乏特定功能的镜像酶,目前大多数测序技术采用边合成边测序方
陆生植被是全球碳水循环的重要组成部分,把握植被碳水耦合特征及其对环境水分条件的响应机制,对全球碳水循环和气候变化模拟具有重要科学意义。本研究从植被导度受水分约束调节的机理入手,通过模型模拟与理论分析相结合,探讨了植被导度与环境水分条件的响应关系,并深入研究植被日内碳水通量耦合迟滞特征以及植被用水效率受环境水分条件的影响关系,研究为理解植被碳水通量耦合的变化特征和规律提供了新的视角。基于Penman
五次卡拉比-丘3-流形的Gromov-Witten不变量的计算是Gromov-Witten理论中的核心问题之一。在物理文献中,BCOV全纯异常方程是唯一一个可以有效地计算高亏格不变量的方法。BCOV全纯异常方程是非全纯自由能的一族二次递归关系,物理学家用该方程与一些其它条件递归地解出非全纯自由能。然而,非全纯自由能与全纯异常方程在数学上并没有一个严格定义。物理文献指出,非全纯自由能的非全纯部分来自