论文部分内容阅读
当前,生命科学研究已进入后基因组时代。蛋白质结构与功能研究标志着蛋白质组学成为生物信息学的主要研究领域之一。蛋白质结构预测问题是蛋白质组学和生物信息学研究的热点问题。随着机器学习方法在生物信息学领域应用的日趋成熟,大量生物信息学问题已经由原来的单纯生物学实验验证向计算智能与生物实验相结合的解决方式转化。采用计算智能方式解决蛋白质三级结构准确分类问题,核心在于对给定的蛋白质序列进行有效的特征提取,从而找出准确分类的关键信息;根据生物学原理构造相应的分类模型;将这种新模型与其他较为成熟的模型进行比对试验,从而证明新型树状分类模型的实际分类效果。本文从蛋白质特征提取、构造新型树状分类模型、选择合适的集成策略三个方面对原有蛋白质三级结构预测方法进行改进,提出了基于多分类器集成的蛋白质三级结构分类方法。在特征选择方面,本文在前人的实验基础上对于蛋白质序列的统计学信息进行改进,将氨基酸的多种性质进行融合,从而提出了广义多肽相关系数。此外,根据在蛋白质结构模型中的“熔球态”假设,采用氨基酸分子二级结构倾向性和常用蛋白质分子疏水性模式作为本实验的三个特征群。在分类模型构建方面,根据一定的生物学意义和问题的特殊性,本文提出了新型树状蛋白质三级结构分类模型,其主要步骤是先进行三分类(区分α*β结构、all-α结构以及all-β结构)再进行二分类(将α*β结构分为α+β结构和α/β结构),并且在模型的每个分类节点上采用多分类器与多特征群结合投票集成的方式。为了验证新型树状分类模型的效果,本文选取ASTRAL、C204、640和1189四个同源性不同的蛋白质三级结构数据集作为实验样本,同时采用单层one-vs-all模型与该模型进行比对试验,考虑到生物信息中包含有一定数量的冗余信息,采用相关系数法对特征群进行群内降维,从而缩短分类器的运行时间。本文主要创新点在于将柔性神经树模型、粒子群算法优化的神经网络模型以及支持向量机模型作为新型树状分类模型的节点基分类器。在该分类模型中,采用不同分类器与不同特征群进行融合,在各个节点上形成不同的基分类器,并将各个基分类器所产生的结果通过投票集成方式得出最终结果。考虑到特征提取的数据量较为庞大,引入相关系数进行特征群内降维,剔除特征群内的冗余信息。通过横向与纵向试验比对有效的证明了新特征与新分类模型在处理蛋白质三级结构方面的有效性。