蛋白质残基间相互作用预测的特征抽取及深度学习方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:liongliong553
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质负责执行生命活动中的大多数功能,是生命科学领域研究重点。蛋白质需要形成特定的结构来完成相应的功能。该结构一般通过形成蛋白质的氨基酸残基中原子的三维坐标表示。蛋白质的三维结构一般通过X-ray晶体衍射、核磁共振和冷冻电镜等湿实验手段测定。然而,相比蛋白质测序试验,通过湿实验测定结构往往耗时耗力,这就导致了蛋白质序列数据和蛋白质结构数据之间形成了巨大鸿沟。因此,通过计算手段从蛋白质序列预测蛋白质的三维结构成为计算生物学和生物物理学中的重要研究问题。基于序列对蛋白质结构预测问题中的主要挑战是对没有同源结构模板的序列进行建模。此类不依赖于模板的方法也称为从头预测(ab initio structure prediction)。预测的得到的残基接触可以通过多种形式有效提高蛋白质结构预测的精度,在蛋白质从头预测过程中有着至关重要的作用。尽管近年来对蛋白质残基接触预测的研究已经获得了较大进展,但是当前特征提取手段仍有诸多局限,预测精度仍然有限。为了更加精确地预测蛋白质远程残基间的空间信息,本文从特征抽取和深度学习模型构建等方面入手,开发并改进了蛋白质残基接触的预测模型,本论文的研究内容如下:(1)提出了一种基于精度矩阵的残基接触预测方法。该方法使用了多序列比对矩阵的逆协方差矩阵(精度矩阵)作为特征,然后采用了残差深度神经网络实现了从精度矩阵到蛋白质残基接触图矩阵的直接预测。在158个蛋白质结构预测技术关键测试比赛(Critical Assessment of protein Structure Prediction,CASP)的测试序列上的Top-L精度达到了50.6%,比最优的对比方法高出11.7%。实验结果表明,相比现有的基于协方差矩阵的方法,所提出的方法的主要优势为使用了可以消除传递噪声的精度矩阵特征;此外,还发现更高质量的多序列比对可以提高模型的预测精度。该方法对于蛋白质结构预测,尤其是协助从头预测具有重要意义。(2)提出了一种基于多协同进化分析特征融合和深度残差神经网络的蛋白质残基接触预测方法。该方法在训练过程中引入残基间的离散距离信息,实现了协同进化特征到离散距离的直接预测。和主流算法相比,该算法的优势在于可以从多种未经处理的协同进化分析特征中学习互补信息;而多种协同进化分析特征则是从基于宏基因组数据库得到的多序列比对中提取的;在CASP11和CASP12数据集和连续自动化模型评估(Continuous Automated Model Evaluati On,CAMEO)数据集上,该方法的精度比选取的最优比对方法分别高出58.4%和44.4%。在CASP13数据集上,该方法的Top-L/5精度达到了71.6%,高于CASP13中的最优方法。实验结果表明,本章所提方法可以有效提高现有深度学习模型对蛋白质残基接触的预测能力,从而最终实现蛋白质三维结构的准确预测。(3)提出了一种基于预测的远程残基几何描述项的快速可微的蛋白质结构预测方法。该方法首先设计了一种深度神经网络构架,融合了多种互补的二维协同进化特征和一维进化特征。额外提取了协同进化分析中的后处理得分和序列特异性特征,在训练过程中,还采用了多任务策略,同时输出多种几何描述项的离散分布。预测的离散分布则通过三次插值作为蛋白质结构预测模块的可微势能函数。最后,提出了一种全局的迭代梯度下降优化算法来优化该势能函数。该方法在31个CASP13的自由建模序列和168条CAMEO的Hard序列进行了测试。在两个数据集上的Top-L精度分别达到了49.3%和57.7%,持续优于现有最优算法。该算法在多个几何描述项的平均绝对误差比当前最优算法至少降低15%。而这些几何项的精确预测也使得所提方法在CASP13数据集上的平均TM-score达到了0.6,超过了CASP13中的最优算法Alpha Fold(TM-score=0.587)。
其他文献
速率积分MEMS陀螺是一种直接输出载体旋转角度信息的传感器,与速率陀螺相比,具有标度因数稳定、量程大、带宽高以及直接输出角度信息的优势。但是速率积分陀螺控制原理较为复杂,电路实现难度较大。此外,速率积分陀螺对谐振器的对称性要求极高,现有的MEMS加工工艺、封装工艺及硅材料特性会严重影响谐振器的对称性,产生严重的刚度非对称、阻尼非对称以及工作模态增益的非对称。论文以MEMS多环结构作为谐振器,针对速
学位
现代通信对天线的性能提出更高的要求,例如:高增益、超宽带等,并且需要同时满足低成本和低雷达散射截面积等需求,基于传统周期结构的设计往往无法满足所有要求。本论文基于超齐构无序分布研究并设计了一些具有多种高性能特性的相控阵、反射阵和伦伯透镜。并且,还将超齐构无序分布与散射超表面结合,设计了用于降低雷达散射截面积的超表面。此外,提高大规模阵列天线增益的覆层设计较少,针对此类问题,本文基于分段均匀结构设计
学位
细粒度图像分类(Fine-grained Visual Categorization,FGVC)是计算机视觉研究中的活跃领域,也称为细粒度视觉识别。由于对标注人员专业性要求偏高,大规模细粒度图像分类数据集的标注成本和困难程度明显超过了标注通用图像分类数据集。随着深度学习对数据要求的提高,该领域已经呈现出数据集规模偏小且数据老化的问题。为了给细粒度图像分类研究开拓数据源,研究界开始将目光转向使用从互
学位
柑橘黄龙病是由亚洲韧皮杆菌侵染所引起的,发生在柑橘上的一种毁灭性疾病.黄龙病主要通过病媒柑橘木虱传播,是世界范围内破坏性最大的柑橘病害.世界上近50个国家和地区的柑橘种植区均感染了该疾病,对全球农业经济和卫生构成了前所未有的挑战.我国柑橘产区疫情形势严峻复杂,不但影响了国内柑橘产业发展,而且对柑橘种植者脱贫增收和实现乡村振兴等方面带来了极大的负面影响.因此,柑橘黄龙病的综合防控已成为一项重要课题.
学位
在熔焊与增材制造领域,传统的线下焊接质量检测难以从根本上预防焊接缺陷的产生,因此实现焊接质量的在线检测成为该领域的研究热点。焊缝的熔透性及余高是反映焊接质量的重要指标,本文针对熔焊与增材制造过程中焊缝熔透性及熔覆层余高的在线检测技术,主要开展了以下几个方面的研究工作:(1)针对受到电弧光及熔池发射率影响、难以在线检测冷金属过渡(Cold Metal Transfer,CMT)焊熔池温度场的问题,根
学位
固体燃料冲压发动机(SFRJ)由于其结构简单,可靠性高,成本低廉等特点,成为了最受欢迎的推进系统之一。世界各国的学者在近一百年内对冲压发动机的工作性能以及燃烧特性进行了全面的研究,但是在实际应用中仍有不少问题尚未解决。上世纪末,旋流作为一种增强发动机燃烧性能的措施受到了学术界的广泛关注,然而在旋流工况下,旋流强度对不同种类推进剂燃速影响的规律尚不明确,且在近几年对发动机燃烧室内出现的自激燃烧振荡现
学位
光学相干层析术(Optical Coherence Tomography,OCT)自20世纪90年代初问世以来,因其高分辨率、高成像速度以及无损成像的优势已经广泛应用于生物成像领域。在越来越多的实际临床应用中,如视细胞成像、肿瘤切缘评估等领域,为了实现更精确的诊断和治疗,细胞量级的成像分辨率成为新的发展趋势。无论是对于轴向分辨率还是横向分辨率,目前主要的增强方法都是基于硬件系统,这样的方法一方面会
学位
随着电子信息技术的发展,毫米波频段具有绝对带宽大、可利用频带多、以及同物理口径尺寸下增益高的优点,在宽带通信、高分辨率探测、雷达成像等领域具有显著的优势。提高信号的发射和接收效率,提高信号隔离度,以及提高系统抗干扰能力,都是通信传输系统的关键问题。但随着频率的升高,介质损耗,大气吸收损耗等影响了电磁波的传输效率。通过组阵的方式能够在一定程度上弥补空间损耗,但是也造成了更大的介质损耗以及表面波。同时
学位
射频电路是雷达探测、微波通信、电子对抗和遥感遥测等系统中的核心部件,随着这些电子系统向高性能、高集成、多功能一体化等方向发展,对射频电路也提出了更高的要求。本文依托于国家自然科学基金项目和预研项目,根据现阶段多功能一体化数字阵列及微波通信系统对高性能射频电路的迫切需求而展开,以实现高性能、小型化和多功能的无源射频电路及器件、微波接收模块以及滤波天线等综合射频电路为主要研究目标,重点对其中的关键技术
学位
老年黄斑性病变(AMD)已经成为发展中国家或发达国家中老年人群不可逆转性失明的主要原因,约80%的严重视力损伤是由AMD引起的。视力障碍会导致自理能力变差、情绪抑郁等情况,严重影响到中老年人的生活质量。地图状萎缩(GA)和脉络膜新生血管(CNV)是晚期AMD最主要的两种表现形式。了解AMD的病理特征和症状有助于引导病人适时求医并防止进一步的视力下降。目前,频域光学相干断层成像(SD-OCT)和光学
学位