论文部分内容阅读
后基因组时代生命科学中最重大的研究课题之一是蛋白质组研究,蛋白质结构预测正是蛋白质组研究中一个富有挑战性的研究课题,其研究不仅对于理解蛋白质空间折叠机制与蛋白质功能具有理论价值,更对生物制药、农业生物科技等应用领域具有直接的指导作用。蛋白质的三维空间结构与其功能紧密相关,而超二级结构正是构成三维结构的基本单元。从蛋白质一级结构直接预测三维空间结构非常困难,蛋白质二级结构及超二级结构正是两者直接之间的重要桥梁,因此超二级结构的预测有着重要的研究意义。现有的许多研究主要是针对蛋白质二级结构预测,超二级结构预测的相关研究还比较少。作为超二结构预测的基础和前提,二级结构预测是不可缺少的环节。氨基酸的编码方式对蛋白质二级结构预测精度有重要影响,因此有必要对氨基酸编码方式进行分析比较,为二级结构预测编码方式的选择提供直接依据;目前较少的超二级结构预测研究在特征表达上有缺陷,仅仅考虑氨基酸基本组成成份,特征信息表达不完整;同时在超二级结构分类方法上也有待进一步探索。本文应用机器学习技术对蛋白质超二级结构预测问题进行深入研究:本文首先对二级结构预测的氨基酸编码问题进行研究;然后对蛋白质结构中频繁出现的一种特殊超二级结构(β发夹)进行预测研究;最后将特殊超二级结构研究进一步推广到一般超二级结构的预测研究。论文取得的主要成果与创新工作概括如下:①研究分析了不同的氨基酸编码方式对使用支持向量机进行蛋白质二级结构预测精度的影响。蛋白质二级结构预测采用何种氨基酸编码方式会对预测精度有很大影响。选择具有较好的分类能力的支持向量机进行蛋白质二级结构预测。建立二级结构预测模型,分析比较正交编码、5位编码、Codon编码(基本)、Codon编码(扩展)和Profile编码等5种氨基酸编码方案以及不同的支持向量机核函数对二级结构预测精度的影响。实验数据表明:使用支持向量机进行蛋白质二级结构预测时,经过多重序列比对、包含更多生物进化信息的Profile编码方式的预测精度明显优于其他4种编码方式。②提出一种新的β发夹特征表达方法。用离散量及离散增量表征蛋白质β-β模体的信息。用氨基酸基本组成成份,二肽成份以及氨基酸组成分布三种方式表达β-β模体特征。每个β-β模体表达成一个18维的特征向量,用作分类器的输入。实验数据集选择ArchDB40数据库(3088个蛋白质)、Kumar数据库(2088个蛋白质)、CASP6数据集(63个蛋白质)。将支持向量机用于β发夹的预测分类器,取得了较高的预测精度。③使用提出的β发夹特征表达方法,首次将离散增量结合二次判别分析方法用于β发夹的预测。在ArchDB40数据集、Kumar数据集、CASP6数据集上均取得较高的的预测精度。上述工作充分说明:本文提出的新的β发夹特征表达方法是有效的。④将特殊超二级结构特征表达策略进一步推广到一般超二级结构特征表达。用离散量及离散增量表达一般超二级结构序列的表征信息。用氨基酸基本组成成份,二肽成份以及氨基酸组成分布三种方式表达一般超二级结构特征。每个超二级结构序列表达成一个36维的特征向量,用作分类器的输入。实验数据集选择ArchDB40数据库中9180个β–β模体、5737个β–α模体、6378个α–β模体、4176个α–α模体。将支持向量机用于超二级结构的预测,在训练集及独立测试集均取得较高的预测精度。⑤首次将二次判别分析方法用于一般超二级结构的预测。使用相同的数据集,在训练集及独立测试集上均获得较高的预测精度。上述工作充分说明:特殊超二级结构特征表达策略进一步推广到一般超二级结构特征表达是有效的。