论文部分内容阅读
蛋白质是生命活动的主要承担者,充分了解其结构和相互作用对于疾病的治疗及新型耐抗性药物的研发具有重要意义。然而已知蛋白质的数量增速极快,通过直接观测的方式确定其三维结构面临着成本过高,速度过慢的问题,因此如何成功预测蛋白质三级结构成为了热门研究方向。本研究创新性运用生成对抗网络(GAN)和双向长短时记忆循环网络(BiLSTM)技术对蛋白质二级结构进行预测,有效发挥了承上启下的关键任务,为解决直接利用氨基酸序列进行三级结构预测难度较高的问题提供了新思路。本文主要工作如下:
(1)对蛋白质二级结构预测服务器进行评估。实验选取了七种热门的预测服务器:PSRSM,SPOT-1D,MUFOLD,SPIDER3,RAPTORX,PSIPRED和JPRED4,从公共蛋白质数据库PDB中选择180条蛋白质,根据不同同源性划分为三组,主要从Q3,SOV,边界识别率和内部识别率角度进行评估,同时对各个服务器的使用方法以及预测原理进行描述和总结。通过以上研究获得了不同方法的区别和优势,实验表明,PSRSM在不同评估角度上均取得了最好的结果。
(2)基于BiLSTM和42基团特征的预测工作。该项工作充分发挥BiLSTM对时序数据的处理优势,以完整的蛋白质序列为输入,捕捉氨基酸长距离相互作用,同时也会保留前后文的影响。在特征选择方面,在常用的位置特异性打分矩阵(PSSM)基础上增加了42基团编码,使用大数据集CULLPDB进行训练,在公共测试集CASP9,CASP10,CASP11和CASP12上Q3准确率可达85.74%,86.83%,84.73%和83.79%。实验结果表明增加42基团编码和完整序列的训练方式有效提高了预测精度。
(3)基于GAN和BiLSTM的组合模型预测。该项工作首次将GAN和BiLSTM结合进行蛋白质二级结构预测。经过合理训练的GAN可以将随机噪音的分布拟合到真实数据的分布上,利用GAN的这一特点,生成新的逼近真实蛋白质结构分布特征的数据,同PSSM在BiLSTM进行分类。实验设计了两种组合模型,第一种是利用卷积神经网络(CNN)搭建的GAN和BiLSTM结合,使用滑动窗口将数据划分为固定长度大小;第二种是利用全连接网络搭建的GAN和BiLSTM结合,取消滑动窗口限制,并对两种模型从Q3和SOV两种角度进行了对比,实验结果表明,以完整序列输入的模型分类效果更好。模型采用了有监督和无监督结合的训练方式,相比于其他模型拥有更少的特征输入,对预测结果有进一步的提升。
(1)对蛋白质二级结构预测服务器进行评估。实验选取了七种热门的预测服务器:PSRSM,SPOT-1D,MUFOLD,SPIDER3,RAPTORX,PSIPRED和JPRED4,从公共蛋白质数据库PDB中选择180条蛋白质,根据不同同源性划分为三组,主要从Q3,SOV,边界识别率和内部识别率角度进行评估,同时对各个服务器的使用方法以及预测原理进行描述和总结。通过以上研究获得了不同方法的区别和优势,实验表明,PSRSM在不同评估角度上均取得了最好的结果。
(2)基于BiLSTM和42基团特征的预测工作。该项工作充分发挥BiLSTM对时序数据的处理优势,以完整的蛋白质序列为输入,捕捉氨基酸长距离相互作用,同时也会保留前后文的影响。在特征选择方面,在常用的位置特异性打分矩阵(PSSM)基础上增加了42基团编码,使用大数据集CULLPDB进行训练,在公共测试集CASP9,CASP10,CASP11和CASP12上Q3准确率可达85.74%,86.83%,84.73%和83.79%。实验结果表明增加42基团编码和完整序列的训练方式有效提高了预测精度。
(3)基于GAN和BiLSTM的组合模型预测。该项工作首次将GAN和BiLSTM结合进行蛋白质二级结构预测。经过合理训练的GAN可以将随机噪音的分布拟合到真实数据的分布上,利用GAN的这一特点,生成新的逼近真实蛋白质结构分布特征的数据,同PSSM在BiLSTM进行分类。实验设计了两种组合模型,第一种是利用卷积神经网络(CNN)搭建的GAN和BiLSTM结合,使用滑动窗口将数据划分为固定长度大小;第二种是利用全连接网络搭建的GAN和BiLSTM结合,取消滑动窗口限制,并对两种模型从Q3和SOV两种角度进行了对比,实验结果表明,以完整序列输入的模型分类效果更好。模型采用了有监督和无监督结合的训练方式,相比于其他模型拥有更少的特征输入,对预测结果有进一步的提升。