论文部分内容阅读
随着分子生物学的深入研究,各种类型的生物数据也在呈指数增长。然而,受到人力、物力以及当前技术水平的限制,蛋白质的结构和功能信息增长缓慢。蛋白质的折叠模式的预测是蛋白质结构和功能预测的关键环节,传统的生物实验方法虽然能准确预测出蛋白质的折叠模式,但是耗时长且成本高。因此利用已有的大量蛋白质的序列信息,结合机器学习方法进行研究变得十分必要。本文利用蛋白质的序列信息、遗传信息以及层次信息,结合多种机器学习分类算法对蛋白质的折叠模式的预测进行了深入的探索和研究,具体研究内容如下:蛋白质的分类是层级结构的,针对现有方法较少利用到蛋白质层次化信息的问题,本文提出使用结构化支持向量机来将蛋白质层次化信息加入到分类过程中。本文选择了三种领域内常用的特征进行对比实验:ACC-PSSM、RPSSM、MEDP。对比实验结果显示,在采用结构化支持向量机后,相较于普通支持向量机,识别的准确率提升了2.7%-6.4%。采用简单的加和策略将三种特征集成后,准确率达到69.0%。验证了层次化信息在蛋白质折叠识别中的有效性。特征提取是解决蛋白质折叠识别问题的关键,基于位置特异性矩阵的自协方差(ACC-PSSM)的特征提取方法在蛋白质折叠识别领域被非常多的分类方法采用,它的性能也是众多特征里面比较好的一个。为了让ACC-PSSM能包含更多的蛋白质信息,本文提出了3种优化方案来对ACC-PSSM特征进行优化:ACC-PSSMpro-plus、ACC-PSSMpro-multiply、ACC-PSSMpro-acc,原理是改变计算PSSM值的公式以扩展PSSM。为了在分类中利用更多的有效信息,本文提出了选择最优子方法的优化策略:将折叠识别多分类问题分解为二分类问题,并为每一个二分类器选择最优的一个子分类器,将ACC-PSSM、ACC-PSSMpro-plus、ACC-PSSMpro-multiply、ACC-PSSMpro-acc、DP、DR、TOP2GRAM等七种特征融合,发挥它们各自的优势,最终使准确率达到78.3%,优于所有的单一特征的分类器。针对人工提取特征可能会遗漏某些蛋白质的重要信息的问题,利用深度学习能够自动学习特征的特点,本文提出了用卷积神经网络进行特征提取的方法:用样本量较大的经过去冗余的SCOP1.75数据集训练卷积神经网络,以蛋白质长度间隔划分mini-batch,选择小批量梯度下降法进行优化。训练好卷积神经网络后,将其用于DD数据集的特征提取,结合前面的特征以及基于选择最优子方法的优化策略,得到一个新的集成分类器。实验结果显示,新的集成分类器准确率达到79.4%,提升了1.1%,验证了卷积神经网络提取特征的有效性。