论文部分内容阅读
蛋白质在生命活动中拥有着不可替代的功能,对蛋白质的研究也越来越重要。其中蛋白质结构类的预测在蛋白质的很多相关属性的预测中起到了重要的作用,如:蛋白质亚细胞定位、膜蛋白类型、G蛋白耦联体类型、酶家族类,蛋白质四级结构类型、与酶的活性等等。因此蛋白质结构类的相关研究在分子生物学中是相当重要的。蛋白质序列数据作为最原始的数据,包含了许多对蛋白质相关研究十分有利的潜在信息,因此对蛋白质序列信息的挖掘和基于序列信息来对蛋白质结构、功能、相互作用以及亚细胞定位等领域的深入研究引起了科研人员的广泛关注本文首先从蛋白质基本性质和性能出发,对目前蛋白质结构类预测现状进行了深入的研究分析。并从预测模型的四个方面对研究方法进行了探讨,首先是数据集的构建;特征提取方面对现有的基于蛋质序列特征提取方法包括基于氨基酸组成,耦联组合,伪氨基酸组成等等进行了分析对比;分类模型方面对目前研究者们常用的分类模型进行了研究;并分析比较了各种评估指标。接着在前面的研究分析基础上,本文提出了一种新的序列特征提取方法,该方法基于Chou-Fasman参数的数据特征,还包括了蛋白质序列的氨基酸组成、氨基酸的疏水特性、极性和部分氨基酸偶联体数据。该方法可以很好的降低这些数据的冗余,避免了部分数据对结果的负面影响。在所提取的特征基础上,运用支持向量机模型,运用留一法,较好的预测了一个由639条蛋白质数据构成的数据集的结构类,证明了该方法的有效性。