基于CNN-LSTM并行框架的抗癌肽识别研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:eddiechen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
!抗菌肽(Antimicrobial peptides,AMPs)是自然界中存在的一种可以先天免疫有害微生物的小蛋白分子,其种类和功能多样,可以特定地作用于肿瘤细胞或有害物质。抗癌肽(Anticancer peptides,ACPs)是抗菌肽的一种,其特点是可以选择性杀死肿瘤细胞而对正常细胞损害较小,其作用机制与抑制细胞分裂增殖失常和靶向作用等生物学过程密切相关。抗癌肽由于其正离子性和两亲性,可以在不伤害正常细胞的前提下,选择性的作用于癌细胞,已经发现的多种抗癌肽可以有效的清除包括白血病、结肠癌等有害细胞,且对正常细胞没有毒性。因此,抗癌肽的识别对于研究其对癌细胞的作用机制和相关药物的靶向治疗方式具有重要意义。现有的抗癌肽识别方法大多将肽的原始序列特征、氨基酸组成、伪氨基酸组成等特征信息组合作为模型的输入建模进而对抗癌肽进行识别来辅助生物学实验。但是目前的识别方法大多没有考虑到肽的结构信息特征,考虑的信息不够全面,忽视了肽的二级结构是其选择性作用的基础这一重要信息。目前对于识别抗癌肽的深度学习方法受限于抗癌肽的数据量和组合模型易过拟合,导致这些方法在特征提取时只关注了肽序列的时序特征或空间特征,提取的特征信息不够充分,而且在肽的特征信息编码时未突出肽序列中重要残基的位置信息,关联信息等,对肽的高级特征挖掘不够充分,导致了模型的学习和识别能力较差,因此,抗癌肽识别模型的性能还有待提升。本文针对以上问题,使用多头自注意力对原始序列进行强化编码并添加结构信息与原始序列构造特征空间,结合深度学习技术捕捉特征空间中复杂抽象的时间和空间信息用于识别抗癌肽。本文主要研究内容如下:(1)针对现有的抗癌肽识别方法很少考虑到肽的结构特性,而研究表明肽的二级结构使其产生能与癌细胞膜相吸附的正离子区域和亲脂区域,是其选择性作用于肿瘤细胞的结构基础,本文引入了肽的结构信息与肽的原始序列共同构建初始特征空间。而目前大多基于深度学习方法的抗癌肽识别模型未充分的关注到特征空间中的时间和空间信息,本文引入了卷积神经网络(Convolutional Neural Networks,CNN)对特征空间中存在的空间信息进行提取,同时引入了长短期记忆网络(Long Short-Term Memory,LSTM)关注特征空间中重要的序列信息,构造了基于CNN-LSTM并行框架的抗癌肽识别方法CL-ACP。CL-ACP通过并行组合模型的方式在关注时序和空间信息的同时降低模型的参数和深度,提高模型的性能和运行效率,避免过深的模型架构产生过拟合的问题,进而提高了模型识别能力。(2)针对在对肽序列信息编码时,普通的向量化编码方式难以突出肽序列中发挥重要作用的残基,以及各残基间的位置信息、关联信息的问题,本文提出了一种基于多头自注意力机制编码和CNN-LSTM并行框架的抗癌肽优化识别方法MCL-ACP。通过引入了正则化的多头自注意力机制对肽的原始序列进行强化编码,自注意力机制通过捕捉残基之间的相关性增强了抗癌肽序列中残基的相关性,多头注意力空间可以丰富特征编码的丰富度,头正则化避免了头与头之间的相似性,能够有效强化的肽序列表示。通过强化编码的序列信息与初始特征空间可以构成完整有效的特征空间。为了分别对特征空间中的3类信息提取有效的高级特征,避免特征信息串扰,MCL-ACP采用了3个并行的网络模块分别进行特征提取,实验结果表明本文模型相对于其他方法有较好的识别能力,可以作为现有抗癌肽识别方法的补充,共同为功能肽药物研发及靶向治疗等生物技术提供辅助建议。(3)本文基于提出的MCL-ACP抗癌肽预测模型,使用R语言网页设计框架Shiny结合Python开发了抗菌肽识别web服务平台MCLACP-Pre,通过此平台,用户可以对抗癌肽进行识别、设计、搜索及预测肽序列是某种抗菌肽的可能性,方便用户对抗癌肽及抗菌肽的识别和设计。综上所述,本文充分利用了抗癌肽的序列信息和结构特性,采用多头自注意力机制强化序列特征表示,构建了CNN-LSTM并行框架模型充分捕捉到了抗癌肽的时间和空间信息,同时将模型应用到了多种抗菌肽的识别中。实验结果表明,与现有研究相比,本模型在多项指标上都有更大的优势,且模型的参数量和时间成本都较优,表明了本文模型可以更有效率的识别抗菌肽,可以为相关肿瘤疾病致病过程的研究和治疗药物的开发提供有用的信息。
其他文献
近年来,经济全球化趋势日益明显,人工智能等互联网相关信息技术更新迭代越来越快,企业集团更加注重对自身资源配置的优化与整合。财政部于2013年颁布的《企业会计信息化工作规范》指出,对于符合要求的企业,应积极运用先进的信息技术来集中处理会计工作,鼓励通过构建财务共享服务中心来扭转财务管理模式分散化的局面。铁路运输企业正符合这一发展趋势,对其财务共享服务中心构建的探讨,为财务战略转型提供一点借鉴意义。
期刊
赖氨酸琥珀酰化(Lysine succinylation,Ksucc)是一种发生在赖氨酸残基上的酸性酰基化修饰,参与人体重要的生命活动,且其调控机制的异常对肿瘤、结核、神经系统疾病等的发生发展起到关键作用。现有的Ksucc位点研究主要包括传统生物实验技术和计算机辅助预测两方面。传统生物实验技术为Ksucc的深入研究奠定了基础,但其需要较高的成本和大规模的实验规格。计算机辅助预测作为传统生物实验方法
学位
期刊
阿尔茨海默症(Alzheimer’s Disease,AD)是不可逆的弥散性神经系统退行疾病,受多种基因和遗传变异的直接影响,患者表现为认知功能障碍和记忆损坏。轻度认知功能障碍(Mild Cognitive Impairment,MCI)处于健康老龄化和痴呆之间的过渡阶段,MCI患者已经出现认知和记忆方面的问题,MCI患者是发展为AD的高风险人群。目前AD发病机制尚不清楚,以药物为主的治疗效果有限
学位
期刊
随着深度学习技术在计算机视觉领域的广泛应用,在交通、医疗、军事等高风险领域中采用的模型方法是否具备可解释性和可靠性,引起了广泛的关注。受到近年来频繁出现的雾霾等恶劣天气的影响,基于光学成像系统处理信息的众多领域,由于无法直接获取到清晰的图像而严重影响了后期对信息的准确获取及处理工作。特别是夜间场景中存在人工活动光源,使得获取到的夜间图像被严重降质。由此对于夜间雾霾图像进行清晰化处理成为了重要的研究
学位
跨襄阳北编组站大桥为转体斜拉桥,转体时梁面以上塔高73 m,最大转体重量32 000 t,为提高转体过程中桥梁的抗倾覆稳定性,设计了基于齿轮齿轨传动的多点支撑转体系统。转体系统主要由转动系统(中心球铰、常规撑脚、滑道、齿条)及辅助支撑系统(驱动承力支腿、电气控制系统)组成。中心球铰设计最大承载28 000 t, 6个驱动承力支腿总设计承载6 000 t,通过6个驱动承力支腿的齿轮啮合齿轨实现桥梁转
期刊
miRNA是一类长度约为22~24个核苷酸的非编码RNA,广泛存在于真核生物中,通过调控靶基因的表达在许多生物过程中发挥着至关重要的作用,如早期细胞生长、发育、增殖、分化、肿瘤侵袭和细胞凋亡等,而突变或生物功能障碍的miRNA会导致白血病、肺癌等多种疾病的发生。因此,研究miRNA与疾病之间的关联有助于从分子水平了解疾病的发病机制,对于研究疾病的预后、诊断、评估和治疗具有重要意义。现有的miRNA
学位
桥梁转体过程中处于单点支撑悬臂状态,受外界干扰因素多,是桥梁最不稳定阶段。为保证转体安全,需实时监测截面应力、转体速度、转体角度、牵引力等关键参数。目前主要是人工监测桥梁转体过程,采集并分析数据后再评估结构安全状态,桥梁已转体运行至另一状态,不能及时发现问题,存在安全隐患。此外,由于跨铁路转体天窗一般在夜间施工,人工测量环境受限,测量误差较大,更不能实时反映桥梁工作状态。传统监测方法投入人员及设备
期刊
通过改良方法制备纳米片层状的石墨炔(GDY),采用扫描电子显微镜(SEM)、透射电子显微镜(TEM)、傅里叶红外光谱仪(FTIR)和X射线衍射仪(XRD)等手段对结构进行表征.将其应用于构筑电化学传感器,采用循环伏安法(CV)和示差分脉冲伏安法(DPV)探究扑热息痛在该材料修饰电极的电化学行为.实验结果表明,与氧化石墨烯、碳纳米管相比,Nafion/GDY修饰的电极电化学性能表现更好,10μmol
期刊