基于深度学习的蛋白质二级结构预测

来源 :浙江理工大学 | 被引量 : 3次 | 上传用户:wg_fo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质二级结构预测是生物信息中一个重要研究的领域。随着人工智能的发展,很多研究人员已经开始使用机器学习来预测蛋白质二级结构,效果比传统的方法显著,但还需继续提高。本文分别使用模糊支持向量机(FSVM)、卷积神经网络(CNN)结合FSVM、CNN结合长短期记忆网络(LSTM)这三种方法对蛋白质二级结构进行预测,主要工作如下:(1)FSVM预测蛋白质二级结构。首先,在高维特征空间构造两个通过类中心的初始超平面,并生成平行于这两个初始超平面的近似最优分割超平面;然后,基于这个近似最优分割超平面为训练集中的每个样本点设置隶属度值;最后,基于特征空间中的超平面训练FSVM,并结合基于序列的结构相似性,提高预测效果。在四个独立的测试集(RS126,CB513,data1199及CASP)上,FSVM分别实现94.2%,93.1%,96.7%和92.1%的Q3准确率,及91.7%,89.7%,94.1%和89.6%的SOV准确率。(2)CNN结合FSVM预测蛋白质二级结构。首先,我们将蛋白序列中向量形式特征转化为矩阵形式特征;然后,使用CNN从原始特征表示中提取蛋白质的抽象特征表示;最后,基于这些抽象特征训练出FSVM分类器,并在四个独立的测试集上进行测试。算法分别实现94.3%,93.8%,97.1%和92.7%的Q3准确率,以及92.5%,90.4%,94.5%和90.2%的SOV准确率。(3)CNN结合LSTM预测蛋白质二级结构。首先,由于CNN具有移动不变性,我们使用多个不同大小的卷积核提取不同范围的局部特征;然后,考虑到蛋白质序列中残基间存在依赖性,我们使用双向LSTM提取全局特征;最后,将局部特征与全局融合形成最后特征,并用soft-max分类器进行蛋白质二级结构预测。在四个独立的测试集上,我们的算法分别实现94.5%,94.2%,97.2%和93.5%的Q3准确率,以及92.2%,90.3%,94.8%和90.1%的SOV准确率。实验结果表明,这三种方法对蛋白质二级结构预测有较高的准确率。最后,本文分析上述方法存在的不足和进一步的研究方向。
其他文献
目的对住院大肠癌术前患者进行营养评估以探讨不同情况病人的营养状况,并提出相应的护理对策。方法采用欧洲营养风险筛查(NRS-2002)对2008年4月到2009年3月期间,四川大学华西医院
目的探讨数字钼靶x线与DCE—MRI对乳腺癌的诊断价值。方法收集经病理证实的乳腺癌病例3l例,回顾性分析其数字钼靶x线及DCE—MRI影像学特点,并与手术结果进行对比。结果31例病例
目的探讨其影像学改变与心电图之间的潜在关联,提高临床对本病的认识。方法选择符合2009年欧洲心脏病学会诊断标准的ARVC患者进行心电图、超声心动图及动态心电图检查,对相关