论文部分内容阅读
蛋白质二级结构预测是生物信息中一个重要研究的领域。随着人工智能的发展,很多研究人员已经开始使用机器学习来预测蛋白质二级结构,效果比传统的方法显著,但还需继续提高。本文分别使用模糊支持向量机(FSVM)、卷积神经网络(CNN)结合FSVM、CNN结合长短期记忆网络(LSTM)这三种方法对蛋白质二级结构进行预测,主要工作如下:(1)FSVM预测蛋白质二级结构。首先,在高维特征空间构造两个通过类中心的初始超平面,并生成平行于这两个初始超平面的近似最优分割超平面;然后,基于这个近似最优分割超平面为训练集中的每个样本点设置隶属度值;最后,基于特征空间中的超平面训练FSVM,并结合基于序列的结构相似性,提高预测效果。在四个独立的测试集(RS126,CB513,data1199及CASP)上,FSVM分别实现94.2%,93.1%,96.7%和92.1%的Q3准确率,及91.7%,89.7%,94.1%和89.6%的SOV准确率。(2)CNN结合FSVM预测蛋白质二级结构。首先,我们将蛋白序列中向量形式特征转化为矩阵形式特征;然后,使用CNN从原始特征表示中提取蛋白质的抽象特征表示;最后,基于这些抽象特征训练出FSVM分类器,并在四个独立的测试集上进行测试。算法分别实现94.3%,93.8%,97.1%和92.7%的Q3准确率,以及92.5%,90.4%,94.5%和90.2%的SOV准确率。(3)CNN结合LSTM预测蛋白质二级结构。首先,由于CNN具有移动不变性,我们使用多个不同大小的卷积核提取不同范围的局部特征;然后,考虑到蛋白质序列中残基间存在依赖性,我们使用双向LSTM提取全局特征;最后,将局部特征与全局融合形成最后特征,并用soft-max分类器进行蛋白质二级结构预测。在四个独立的测试集上,我们的算法分别实现94.5%,94.2%,97.2%和93.5%的Q3准确率,以及92.2%,90.3%,94.8%和90.1%的SOV准确率。实验结果表明,这三种方法对蛋白质二级结构预测有较高的准确率。最后,本文分析上述方法存在的不足和进一步的研究方向。