基于深度学习的抗菌肽识别和预测

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lenchoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着抗生素的泛滥,许多细菌对抗生素产生了抗药性,威胁到了人们的健康。抗菌肽是一种具有抗菌活性的碱性多肽物质,它具有抗菌活性高、抗菌谱广等优点,是一种具有应用前景的良好的抗生素的替代品。目前,已有许多研究人员使用机器学习算法进行抗菌肽的预测和识别,取得了优异的效果,但仍有一定的上升空间。本文采用深度网络模型进行抗菌肽的预测和识别,并构建了一个抗菌肽预测平台,用以提供抗菌肽预测服务,辅助研究人员进行抗菌肽预测和识别,提高抗菌肽预测和识别的效率和识别准确率。首先,构建了一个包含嵌入层、卷积层、最大池化层、双向LSTM层和全连接层的端到端网络,获取了四个不同的抗菌肽数据集,并在这四个数据集上分别训练端到端网络,与其他抗菌肽预测模型进行对比,该模型的效果优于Bi-LSTM、iAMP-2L和MAMP-Pred,在预测准确率上分别高出0.67%、3.93%和3.17%。为分析模型各个结构对模型的贡献,分别移除模型的嵌入层、卷积层和双向LSTM并重新进行训练和测试,结果显示,移除卷积层和双向LSTM层时,模型的预测准确率分别下降了3.06%和0.73%,对应的ROC曲线下面积分别减少了0.0084和0.0115,而移除嵌入层,模型预测准确率和对应的ROC曲线下面积分别减少0.62%和0.0001,这表明对于预测抗菌肽而言,利用卷积层和双向LSTM获取序列的局部信息和全局信息是重要的。其次,从UniProt上获取共计556603条蛋白质序列,预训练的一个BERT模型,然后,在四个不同的抗菌肽数据集上分别进行微调,与AMPScan、Bi-LSTM、iAMP-2L和MAMP-Pred进行比较,在预测准确率上分别高出0.93%、0.36%、4.21%和1.51%。此外,综合了所有抗菌肽数据集,进行五折交叉验证,验证结果显示模型的特异度、敏感度和准确率均高于85%。上述实验表明基于BERT的抗菌肽预测模型是可行的,因此在综合的抗菌肽数据集上,微调了一个抗菌肽预测模型用以提供抗菌肽预测服务。最后,通过需求分析和调研,基于Django框架设计并实现了一个抗菌肽预测服务平台,该平台所使用的模型,是在综合数据集上进行微调的基于BERT的抗菌肽预测模型。本文的工作仍有部分不足之处,因此将来会进行数据集的重新构建、构建多分类模型、在其他蛋白质任务上运用BERT模型、进一步优化抗菌肽预测平台等工作。
其他文献
近年来随着可持续发展观念的深入人心,对提高能源利用效率和开发可再生能源显得越发重要。在这样的背景下,有机固液型相变材料因其清洁,低廉,良好的热循环性能和高储能密度而引起了各界的广泛关注,尤其是在蓄热、废热能回收利用和温度控制领域,并且在过去的几十年中发展迅速。然而在实际的应用中,固液转变型相变材料在熔化过程中存在易于泄漏、体积变化大等问题,极大的限制了其应用范围。为了解决实际应用中的问题,通过将相
保险是现代经济的重要产业,是风险管理的重要手段,对于促进经济提质增效、改善社会治理方式、保障社会稳定等方面具有十分重要的意义,被称为“社会稳定器”和“经济助推器”。新时代下,互联网快速普及,全球数字经济爆发式增长,信息科技与保险业迅速融合,“互联网+”使保险市场焕发出新的活力,呈现出前所未有的生机。商业保险监管是金融监管的重要组成部分。我国自2003年确立“一行三会”的格局以来,一直施行金融领域分
当前,险资在资本市场中扮演着越来越重要的角色,那么保险公司持股对上市公司会造成什么影响?本文从现金股利的角度进行研究。以2006-2018年期间沪深两市A股上市公司为基础研究样本,利用国泰安(CSMAR)及锐思(RESSET)数据库,实证检验保险公司持股对上市公司现金股利的影响,讨论下述问题:(1)保险公司持股行为与上市公司的现金股利发放方面是否存在一定的相关关系;(2)进一步细分保险公司类型,讨
作为一种新型人机一体化装置,可穿戴型下肢外骨骼将机器人的强大机械动力与人的智力相结合,在增强人体机能的同时还能额外为身体提供动力。凭借着优越的辅助特性,下肢外骨骼在医疗、军事等领域有着广泛的应用,成为近年来机器人领域的研究热点。本文以被动模式下肢外骨骼系统作为研究对象,在分析人体下肢机理与步行模式的基础上,围绕系统结构设计及被动模式时外骨骼的运动特点,重点展开步态规划与轨迹控制方面的研究。研究的主
目的:砷(Arsenic,As)是一种公认的致癌物质,但砷的致病机制尚不清楚。上皮间质转化(Epithelial mesenchymal transition,EMT)是癌症进展过程中的关键形态学事件,本研究通过亚砷酸钠(NaAsO2)慢性诱导人支气管上皮细胞BEAS-2B发生EMT,探讨自噬对细胞发生EMT的作用机制,为砷相关疾病的预防和治疗提供实验依据。方法:1.细胞分组。急性砷处理组:BEA
近年来,随着中国逐步进入老龄化社会,我国在老年人养老机制及老年人护理方面面临诸多挑战,养老方面的国际合作显得越来越重要。在此背景下,成都温江澄源堂中医馆与意大利的圣埃及地奥社区进行了“康乐未央”项目的合作。该项目于2019年7月15日在澄园书画艺术博物馆举行了开幕仪式暨签约仪式,笔者担任本次活动的交替口译员。本次口译实践涉及到中意两国之间的政治、经济和文化等不同方面的内容。笔者在做交替传译的过程中
科尔森·怀特黑德是著名的非裔美国作家。他的最新力作《地下铁道》(2016)曾获2016年美国国家图书奖和2017年普利策小说奖。以往对该小说的研究主要集中在文本的叙事策略和关于成长、创伤、自由、身份等主题之上。本文基于扬·阿斯曼的文化记忆理论研究《地下铁道》,将小说还原到怀特黑德创作的文化语境和历史语境中,关注那些被隐藏在记忆碎片中的文化记忆,如地下铁道、博物馆、图书馆,探讨奴隶制下文化记忆在非裔
海洋面积占地球表面积的71%,是我们人类活动的重要领域之一。随着科学技术的不断发展,现代通信系统和网络已经从空中和陆地延伸到了海洋。因此水声通信技术近年来得到了迅猛的发展。水声通信的研究在海洋资源勘探和开发、海洋环境监测以及海洋军事战略发展中也起到了至关重要的作用,而水声传感器网络中数据的可靠传输显得尤为关键。水声信道与无线信道不同,它具有可用频带窄、传播时延高、多径效应严重和多普勒频移大等的特点
酶原颗粒蛋白16(ZG16)是1994年在大鼠胰腺酶原颗粒膜上发现的一种分泌性糖蛋白。ZG16的表达模式类似于大多数分泌酶,例如它在胰腺腺泡细胞中有所表达,且对于一些激素的刺激响应;另外在消化道的杯状细胞内该蛋白也有不同程度的表达,且物种不同其表达模式也不同。文献报道,ZG16蛋白的作用主要有蛋白分选及运输、调控K+的传导、识别病原性真菌及参与肿瘤的发生与发展等。过敏性哮喘是由多种细胞类型和细胞组
本翻译报告基于译者对《塞舌尔教育培训政策中的信息通信技术》的翻译和思考。该条例共分为三个部分:第一部分是信息通信技术在国家发展和教育中的总体应用和结构框架;第二部分介绍了这一应用条例的愿景、目标、范围及领导原则;第三部分介绍了该应用条例所预期的目标。笔者以目的论为主要的翻译理论指导,从目的的角度分析了源文本。目的论分为三个原则,分别是目的原则、连贯原则和忠实原则。译者也以这三个原则作为衡量译文质量