论文部分内容阅读
作为生物信息学领域的一项基础性研究,蛋白质二级结构预测对确定蛋白质的空间结构、明确蛋白质功能等有着重要的意义。虽然可以通过实验测定蛋白质结构,但其耗时耗力难以满足当下日益增长的蛋白质序列数据处理需求,借助机器学习手段预测蛋白质结构势在必行。由于现有单分类器二级结构预测方法的效果难以继续提升,本文尝试对多分类器融合方法展开研究,以期改善结构预测的效果。本文以基于多分类器融合的蛋白质二级结构预测方法为研究对象,主要内容如下:首先,本文总结了蛋白质的分子组成信息、结构分类信息以及常用的蛋白质数据库;并从同态融合学习和异态融合学习两个角度出发,对多分类器融合学习方法进行了细致梳理和综述。由于特征向量的构造以及多分类器融合方法的设计是基于多分类器融合的蛋白质二级结构预测方法的两个重要环节,上述综述为本文的研究提供了理论基础和应用前提。其次,本文提出基于多重进化矩阵加权融合的蛋白质二级结构预测方法。该方法使用基于近相关蛋白比对得到的打分矩阵和基于远相关蛋白比对得到的打分矩阵作为成员分类器——支持向量机的输入向量;对成员分类器输出的后验概率信息运用加权融合方法进行处理,利用成员分类器在训练集得到的分类错误率求得各个成员分类器权重,构造基于加权融合方法的多分类器融合模型。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。最后,本文提出一种基于熵的动态自适应加权融合蛋白质二级结构预测方法。该方法设计了两种加权系数,一是根据成员分类器输出的样本后验概率信息计算出的熵值来调节权重大小,熵值越大的分类器赋予的融合权重越低;二是根据成员分类器对分类结果的“自信”程度,动态调整其加权参数。最后通过加权投票的方法实现融合,得到最终的预测结果。实验结果表明该方法能够有效提高蛋白质二级结构预测准确率。