论文部分内容阅读
!抗菌肽(Antimicrobial peptides,AMPs)是自然界中存在的一种可以先天免疫有害微生物的小蛋白分子,其种类和功能多样,可以特定地作用于肿瘤细胞或有害物质。抗癌肽(Anticancer peptides,ACPs)是抗菌肽的一种,其特点是可以选择性杀死肿瘤细胞而对正常细胞损害较小,其作用机制与抑制细胞分裂增殖失常和靶向作用等生物学过程密切相关。抗癌肽由于其正离子性和两亲性,可以在不伤害正常细胞的前提下,选择性的作用于癌细胞,已经发现的多种抗癌肽可以有效的清除包括白血病、结肠癌等有害细胞,且对正常细胞没有毒性。因此,抗癌肽的识别对于研究其对癌细胞的作用机制和相关药物的靶向治疗方式具有重要意义。现有的抗癌肽识别方法大多将肽的原始序列特征、氨基酸组成、伪氨基酸组成等特征信息组合作为模型的输入建模进而对抗癌肽进行识别来辅助生物学实验。但是目前的识别方法大多没有考虑到肽的结构信息特征,考虑的信息不够全面,忽视了肽的二级结构是其选择性作用的基础这一重要信息。目前对于识别抗癌肽的深度学习方法受限于抗癌肽的数据量和组合模型易过拟合,导致这些方法在特征提取时只关注了肽序列的时序特征或空间特征,提取的特征信息不够充分,而且在肽的特征信息编码时未突出肽序列中重要残基的位置信息,关联信息等,对肽的高级特征挖掘不够充分,导致了模型的学习和识别能力较差,因此,抗癌肽识别模型的性能还有待提升。本文针对以上问题,使用多头自注意力对原始序列进行强化编码并添加结构信息与原始序列构造特征空间,结合深度学习技术捕捉特征空间中复杂抽象的时间和空间信息用于识别抗癌肽。本文主要研究内容如下:(1)针对现有的抗癌肽识别方法很少考虑到肽的结构特性,而研究表明肽的二级结构使其产生能与癌细胞膜相吸附的正离子区域和亲脂区域,是其选择性作用于肿瘤细胞的结构基础,本文引入了肽的结构信息与肽的原始序列共同构建初始特征空间。而目前大多基于深度学习方法的抗癌肽识别模型未充分的关注到特征空间中的时间和空间信息,本文引入了卷积神经网络(Convolutional Neural Networks,CNN)对特征空间中存在的空间信息进行提取,同时引入了长短期记忆网络(Long Short-Term Memory,LSTM)关注特征空间中重要的序列信息,构造了基于CNN-LSTM并行框架的抗癌肽识别方法CL-ACP。CL-ACP通过并行组合模型的方式在关注时序和空间信息的同时降低模型的参数和深度,提高模型的性能和运行效率,避免过深的模型架构产生过拟合的问题,进而提高了模型识别能力。(2)针对在对肽序列信息编码时,普通的向量化编码方式难以突出肽序列中发挥重要作用的残基,以及各残基间的位置信息、关联信息的问题,本文提出了一种基于多头自注意力机制编码和CNN-LSTM并行框架的抗癌肽优化识别方法MCL-ACP。通过引入了正则化的多头自注意力机制对肽的原始序列进行强化编码,自注意力机制通过捕捉残基之间的相关性增强了抗癌肽序列中残基的相关性,多头注意力空间可以丰富特征编码的丰富度,头正则化避免了头与头之间的相似性,能够有效强化的肽序列表示。通过强化编码的序列信息与初始特征空间可以构成完整有效的特征空间。为了分别对特征空间中的3类信息提取有效的高级特征,避免特征信息串扰,MCL-ACP采用了3个并行的网络模块分别进行特征提取,实验结果表明本文模型相对于其他方法有较好的识别能力,可以作为现有抗癌肽识别方法的补充,共同为功能肽药物研发及靶向治疗等生物技术提供辅助建议。(3)本文基于提出的MCL-ACP抗癌肽预测模型,使用R语言网页设计框架Shiny结合Python开发了抗菌肽识别web服务平台MCLACP-Pre,通过此平台,用户可以对抗癌肽进行识别、设计、搜索及预测肽序列是某种抗菌肽的可能性,方便用户对抗癌肽及抗菌肽的识别和设计。综上所述,本文充分利用了抗癌肽的序列信息和结构特性,采用多头自注意力机制强化序列特征表示,构建了CNN-LSTM并行框架模型充分捕捉到了抗癌肽的时间和空间信息,同时将模型应用到了多种抗菌肽的识别中。实验结果表明,与现有研究相比,本模型在多项指标上都有更大的优势,且模型的参数量和时间成本都较优,表明了本文模型可以更有效率的识别抗菌肽,可以为相关肿瘤疾病致病过程的研究和治疗药物的开发提供有用的信息。