基于生成对抗网络和长短时记忆循环网络的蛋白质二级结构预测

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:ly2mm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要承担者,充分了解其结构和相互作用对于疾病的治疗及新型耐抗性药物的研发具有重要意义。然而已知蛋白质的数量增速极快,通过直接观测的方式确定其三维结构面临着成本过高,速度过慢的问题,因此如何成功预测蛋白质三级结构成为了热门研究方向。本研究创新性运用生成对抗网络(GAN)和双向长短时记忆循环网络(BiLSTM)技术对蛋白质二级结构进行预测,有效发挥了承上启下的关键任务,为解决直接利用氨基酸序列进行三级结构预测难度较高的问题提供了新思路。本文主要工作如下:
  (1)对蛋白质二级结构预测服务器进行评估。实验选取了七种热门的预测服务器:PSRSM,SPOT-1D,MUFOLD,SPIDER3,RAPTORX,PSIPRED和JPRED4,从公共蛋白质数据库PDB中选择180条蛋白质,根据不同同源性划分为三组,主要从Q3,SOV,边界识别率和内部识别率角度进行评估,同时对各个服务器的使用方法以及预测原理进行描述和总结。通过以上研究获得了不同方法的区别和优势,实验表明,PSRSM在不同评估角度上均取得了最好的结果。
  (2)基于BiLSTM和42基团特征的预测工作。该项工作充分发挥BiLSTM对时序数据的处理优势,以完整的蛋白质序列为输入,捕捉氨基酸长距离相互作用,同时也会保留前后文的影响。在特征选择方面,在常用的位置特异性打分矩阵(PSSM)基础上增加了42基团编码,使用大数据集CULLPDB进行训练,在公共测试集CASP9,CASP10,CASP11和CASP12上Q3准确率可达85.74%,86.83%,84.73%和83.79%。实验结果表明增加42基团编码和完整序列的训练方式有效提高了预测精度。
  (3)基于GAN和BiLSTM的组合模型预测。该项工作首次将GAN和BiLSTM结合进行蛋白质二级结构预测。经过合理训练的GAN可以将随机噪音的分布拟合到真实数据的分布上,利用GAN的这一特点,生成新的逼近真实蛋白质结构分布特征的数据,同PSSM在BiLSTM进行分类。实验设计了两种组合模型,第一种是利用卷积神经网络(CNN)搭建的GAN和BiLSTM结合,使用滑动窗口将数据划分为固定长度大小;第二种是利用全连接网络搭建的GAN和BiLSTM结合,取消滑动窗口限制,并对两种模型从Q3和SOV两种角度进行了对比,实验结果表明,以完整序列输入的模型分类效果更好。模型采用了有监督和无监督结合的训练方式,相比于其他模型拥有更少的特征输入,对预测结果有进一步的提升。
其他文献
计算机组成原理是计算机类相关的一门重要的专业基础课,由理论和实验两部分组成,控制器的设计实验是理论知识应用的重要环节,在传统的教学实验中学生只能通过实验箱观察实验结果,不能便捷地看到设计中存在的问题,如果在实验环节增加调试系统可以帮助学生看到模型机内部的数据变化过程,发现组件、数据通路和控制器设计中存在的问题。RISC-V指令集架构短小精悍,编码规范,解决了以往指令集中存在的问题,RV32I是RI
学位
通常在地震勘探中采集到的地震资料因受各种因素的影响常常混杂着大量噪声,如果能有效的消除地震信号中的噪声干扰,这将为后续解释工作提供极大的保障。所以本文从消除地震信号随机噪声提高地震资料信噪比方向展开研究,主要研究内容如下:首先,本文介绍了小波变换由理论知识到实际应用的内容与流程,深入分析了常用小波阈值选取算法的优缺点。然后,研究改进了小波变换阈值去噪算法去除地震资料随机噪声。本文针对常用小波阈值去
学位
人体的健康状态可以依靠人体生理信号来反映,实时监测人体的生理信号参数可以及时分析与诊断患者病情。随着各类便携式智能移动设备和人工智能的快速发展,在对疾病筛查和预测过程中,除了可以通过生化、影像检查结果发现疾病的端倪外,还可以通过移动智能设备对人们的语言和文字形成的规律进行分析,这种分析得出的数据能够帮助医生更有效地预测并追踪早期的发展障碍、精神疾病和退化性神经疾病等。本文设计的人体多生理参数数据处
学位
卷积神经网络(Constitutional Neural Networks,CNN)具有良好的非线性拟合性,因此被广泛应用于图像分类,语音识别和目标检测等领域。随着CNN的发展,模型的大小和计算量剧增导致CNN模型只能在特定平台使用,无法实现专有化和小型化。现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)具有高性能、低功耗及可重构等特点,在进行CNN加速
现如今,物联网技术将世界变成一个万物互联的时代,嵌入式设备与物联网的结合成为了嵌入式技术发展的真正未来。天然气作为一种高效清洁的能源,在国内呈现需求日益旺盛的态势。而天然气的开发环境恶劣,天然气井控制器的应用就为天然气开采和管理提供了技术支持。目前的气井控制器的设计以进口CPU为主,国产龙芯CPU的发展为我国摆脱技术依赖提供了新的支持。基于此,本课题开发了一款基于国产龙芯CPU的气井控制器。通过对
水质检测是水保护的前提和基础,生化需氧量(Biochemical Oxygen Demand,BOD)、化学需氧量(Chemical Oxygen Demand,COD)、亚硝酸盐能够很好地反映水污染的程度。研究上述参数的快速检测,可为水资源保护提供有效的数据支持。研究基于高光谱技术的水质指标定量研究,可快速、无接触、大面积的实现水质的实时检测,对我国目前的水污染治理问题提供理论依据具有极为重要的
学位
在高校智慧校园建设过程中,学业预警作为智慧校园的主要组成部分,其主要利用数据挖掘技术保障学生顺利完成学业,同时为高校提供一定的决策支持。本文以某校相关部门的研究课题为背景,旨在搭建适用于该校的学业预警系统,保障学生顺利完成学业。主要研究内容分为“学业预警模型研究”和“学业预警系统设计与实现”两个部分,其详细内容如下:在学业预警模型研究的过程中,以某校本科生的历史成绩数据、一卡通消费数据和图书馆刷卡
学位
蛋白质二级结构预测在生物信息学领域具有重大意义,对充分了解蛋白质的功能和结构是十分必要的,科学家们从未停止对蛋白质结构的研究。本文主要使用了深度学习模型来进一步提高蛋白质二级结构的预测准确率,本文的主要工作包括以下几个方面:(1)基于优化的卷积神经网络的方法。首先本文对蛋白质数据进行处理,将CASP11数据集作为验证集,并建立初始的卷积神经网络模型,然后将卷积神经网络的层数、学习率、梯度冲量和正则
学位
多输入多输出(Mutiple-Input Mutiple-output,MIMO)通过其空间复用和分集能力可有效提升无线通信系统的吞吐量和可靠性,是新一代移动通信系统中的关键技术之一。预编码通过在发射端对发送信号进行预处理,可有效抑制数据流间干扰,从而提升系统容量和资源利用率,因而是MIMO系统性能得以实现的重要技术手段。传统预编码技术一般通过统计分析和高级信号处理技术设计固定的算法,对环境的动态
近年来,物联网、人工智能以及区块链等技术的快速发展使得人们生活质量更加优越,人们对物联网设备(智慧手环、智能音箱和手机等)需求量不断增加。然而,大多物联网设备被制造时都存在缺少防火墙软件和密钥口令较弱等安全问题。攻击者可以利用这些存在安全隐患的物联网设备对物联网中的其他物联网设备发动分布式拒绝服务攻击(Distributed Denial of Service,DDoS)消耗被攻击者系统资源或网络