论文部分内容阅读
蛋白质二级结构是研究蛋白质折叠盘旋结构的基础,蛋白质盘旋和折叠的状态决定了人体生物蛋白酶的活性,如果这种生物活性缺失或者降低将直接会导致疾病的产生,因此确定蛋白质二级结构将对研究人体内蛋白复合物以及医学疾病的防治有很大的帮助。本文主要提出了基于蛋白质长度分类建模的预测方法,主要的工作包括以下几个方面:(1)蛋白质二级结构在线服务器评估。为了对当前蛋白质二级结构预测的研究现状有更深刻的理解,从蛋白质结构数据库中下载了350条蛋白质数据,对当前6个国内外经典的预测服务器:PSRSM、MUFOLD、SPIDER、RAPTORX、JPRED和PSIPRED进行评估测试,实验结果显示PSRSM服务器获得了最优的Q3和Sov准确率。(2)基于线性分类器优化建模的预测方法。该方法将25PDB作为训练集、CB513作为测试集,通过手动优化和贝叶斯优化两种方式,对线性分类器的正则化系数和线性系数阈值进行调整优化,最终得到优化后的实验结果比优化之前高0.1个百分点。(3)基于蛋白质长度分段和深度卷积神经的分类建模方法。该方法首先选定蛋白质预测中经典的两个大数据集Astral和Cull PDB,将其组合为一个整体数据集Astra Cull;然后将该数据集中的蛋白质按照长度划分为4段或6段;接下来分别在每一段上优化深度卷积神经网络的卷积核大小、个数、网络层数、学习率和正则化系数等,以寻找最优网络模型结构;最后得到4分段的网络模型和6分段网络模型。为了使实验结果更加精确,又获取了更多蛋白质特征信息进行实验,得到了进一步优化的蛋白质6分段网络模型。实现结果显示6分段模型的最优准确率高于4分段模型,6分段模型在数据集CASP9、CASP10、CASP11、CASP12和CB513的最高Q3准确率分别为83.67%、78.99%、78.53%、71.52%和85.94%,其中CB513的实验结果优于很多经典预测方法。(4)基于贝叶斯优化的分类建模方法。该方法将Astra Cull数据按照蛋白质的长度划分为6组,在每一组上使用贝叶斯优化卷积神经网络的4个参数:卷积深度、学习率、正则化系数和随机梯度冲量,从而得到优化后的卷积神经网络模型,该模型得到在数据集CASP9、CASP10、CASP11、CASP12和CB513中最优的Q3准确率分别为80.08%、77.74%、77.06%、69.95%和83.09%。实验结果说明,本文提出的基于蛋白质长度分类建模的方法是有效的,它考虑到长短程距离信息对结构预测的影响。不仅能够缩短训练时间,而且还能让蛋白质选择与其长度相似度高的模型进行预测,提高了预测准确度。与此同时,结合深度学习方法的使用也提高了准确率,这也为今后蛋白质二级结构预测研究指明了方向。