基于ResNet与DenseNet的蛋白质接触图预测研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:jackywang1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着蛋白质测序技术的不断向前发展,蛋白质序列的数量在蛋白质数据库中呈现指数型的增长。由于通过生物实验来确定蛋白质结构的方法不能满足目前的研究需求,因此研究和预测蛋白质接触图是一个非常有效的方法。另外蛋白质接触图的研究和预测不仅有助于对蛋白质结构的研究,还有助于对蛋白质功能的研究,已成为蛋白质三维结构建模的重要工具。本文采用深度神经网络的框架对蛋白质接触图进行预测,具体研究工作如下:(1)在数据提取方面,考虑到序列信息在生物信息学中的重要作用,本文提取了蛋白质序列的二级结构以及溶剂可及性,用于扩充特征;另外,多序列比对在蛋白质接触图中的主要作用是能够提供一种包含序列信息的特征,本文使用HHblits生成较为准确的多序列比对,并用于生成PSSM与PSFM特征;最后本文从进化耦合分析方法中提取成对特征,并与前述特征相结合。(2)本文构建了一种ResNet和DenseNet相结合的深度神经网络框架用于蛋白质接触图预测,并且使用了全新的特征集合。该框架使用一维的ResNet处理由多序列比对生成的序列特征(包括PSSM、Secondary Structure、Solvent Accessibility特征),并引入新的PSFM特征作为特征输入,通过ResNet的残差映射以及恒等映射能够有效的处理序列特征。然后再使用外连接函数处理序列特征,再与成对特征相结合,通过DenseNet的稠密连接特性充分处理数据特征,从而提高预测精度。针对模型参数方面的优化,本文使用交叉熵损失函数来降低离散数据的影响,并使用随机梯度下降算法对模型的超参数进行调优。(3)为了验证本文网络框架的有效性,本文在五个标准数据集上与现有蛋白质接触图的预测器进行比较和分析。本文在PDB25数据集上的长程接触在L/k(k=10,5,2,1)的预测精度分别为79.6%,73.5%,63.1%,47.8%;在四个公共数据集(CAMEO、Mems400、CASP12、CASP13)上的长程接触在top L的预测精度分别为42.0%、47.1%、40.3%、43.2%。实验结果表明,与常用方法相比,本文的构建的模型更优,对接触图的预测更有效。另外,本文可视化了蛋白质接触图,并做了简要的分析。最后,本文对蛋白质接触图预测的研究工作进行了总结,并对今后的工作进行了展望。
其他文献
目的:本研究的目的是探讨长链非编码RNA肺腺癌相关转录子2(Metastasis associated lung adenocarcinoma transcript 2,MALAT2)在胃癌(Gastric cancer,GC)侵袭转移中的相关作
第一部分电凝法制作大鼠MCAo模型目的:建立SD大鼠大脑中动脉闭塞(MCAo)模型,观察记录大鼠相关行为学变化并进行评分,病理检查证实梗死范围。方法:24只SD大鼠随机分为实验组和
表面等离激元(Surface Plasmons,SPs)是一种与金属表面紧密结合的电磁激励,可将能量紧密限制在金属与电介质的界面上。SPs可有效突破传统光子器件衍射极限的限制,可将光子器
目的明确机械牵张刺激下大鼠皮肤再生相关基因表达谱的变化,并筛选出其中的关键基因。方法建立大鼠皮肤扩张模型,以未扩张皮肤为对照,以注水量不同分组取材。分别是:对照组(c
目的甲状腺肿瘤是内分泌肿瘤中最常见的一种,近年来发病率逐年升高。本课题通过检测ZNRF3基因在甲状腺癌和癌旁组织中的表达差异,结合病例标本的临床资料,初步阐明ZNRF表达与
低频时码授时是目前国际上比较先进的电波授时技术方式。也是当前国际电信联盟(ITU)比较推崇的新一代授时技术。所谓低频授时是指授时电波的工作频率较低,并且电波的输出方式多
随着智能终端的大规模普及和物联网技术的兴起,传统无线通信系统已经呈现出高密度化的特征,预期在下一代无线通信系统中,终端数目要超过百亿,且每平方公里的设备连接数要超过
视频人体行为识别,也简称为视频行为识别,是指从视频中识别特定人类对象的具体动作。人类行为丰富多样,且贯穿于生产和生活中。对视频中的人类行为进行识别,可以有效增进对视
创业投资作为资本市场上科技与金融结合的创新成果,对高新技术企业和高增长潜力的初创企业能够提供资金、技术、管理等方面的支持,在促进科技成果转化和新兴产业发展方面有显
联盟形成一直是多agent系统(multi-agent systems,MAS)和人工智能领域的一个研究热点,主要研究如何形成联盟以及形成哪些联盟可以使系统的总收益最大。然而,已有工作大都不考