论文部分内容阅读
测序技术的进步使得蛋白质序列数据与日俱增,然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认识。同时,传统的生物实验方法已难以满足海量数据的处理需求,因此发展理论与计算的方法来研究蛋白质结构和功能具有深远的意义,这也成为计算分子生物学中最基本、最重要的课题之一。对于一条蛋白质而言,利用海量的序列信息预测出其空间三级结构是结构预测方法的最终目的。然而在很多情况下,这个目标很难实现。由于蛋白质空间结构是由一些二级结构元件组成的,人们希望先预测出蛋白质二级结构类型,了解蛋白质内部的局部结构信息,再进一步预测其三级结构。因此,蛋白质二级结构类型预测工作是蛋白质三级结构预测的基础,具有着重要研究意义。同时,它作为蛋白质组学研究的一个分支,受到越来越多研究者们的关注。目前,蛋白质二级结构类预测的研究主要集中在三个方面:提取蛋白质序列的特征信息,挑选多重信息中有代表性的特征以及发展合适的预测算法。近年来,国内外文献报道了很多有效的方法,但从序列信息获取角度来看,现有方法所获取的信息较单一,各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质结构类是一个迫切需要解决的问题。此外对于融合后的信息,可能存在冗余信息,还应考虑如何挑选有效的特征信息,剔除冗余的信息。针对以上问题,本研究基于信息处理方法,提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息,并对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高了蛋白质信息获取与结构类预测的效率。具体方法上:1)基于字统计模型及氨基酸的物化性质,获取蛋白质一级序列、缩氨基酸序列及二级结构序列片段的位置信息,进而研究其位置分布函数,计算其数值特征。将各片段的位置特征与频率特征相融合,构建出高效的蛋白质结构类预测模型,为有效提高分类率奠定基础;2)在特征信息选择上,采用基于相对重要性的随机森林对多重特征信息进行挑选,尽可能减少信息的冗余。随机森林是一种通过建立多棵决策树来对数据进行分类判别的方法,其主要采用自助法重采样技术,按照特征的相对贡献这一指标来挑选关键特征。3)通过采用支持向量机、k-近邻算法、BP神经网络算法以及多分类器组合来进一步改善分类效果,并验证该研究所提算法的有效性。实验结果表明:1)与传统经典方法相比,利用本研究提出的特征信息提取方法可涵盖序列统计特征、氨基酸物理化学特征、氨基酸片段位置分布三方面的信息,此方法可以较为全面地反映出蛋白质序列中有代表性的特征信息。2)通过采用有效的特征挑选算法以及分类算法,既有效减少了信息的冗余,又提高了结构类预测模型的准确率。综上,本研究从信息学角度出发,系统地解决蛋白质信息提取、多特征信息组合及结构类预测等信息处理问题,有助于蛋白质的结构及功能研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。