论文部分内容阅读
生物信息学是一门新兴的前沿交叉学科,它综合运用数学、计算机科学和生物学的各种工具。它的研究焦点主要集中于使用统计学和计算机科学工具,分析和解释海量分子生物学数据信息。生物信息学有十分广泛的研究领域,几乎涉及了生命科学的所有内容。基于单一的蛋白质序列信息来预测蛋白质的二级结构又是生物信息学中一个重要的根本性问题。 在第二章中,我们主要叙述了一些常用的确定蛋白质结构的方法。其中包含三种实验测定蛋白质三维结构法和计算法预测蛋白质结构法。在计算法预测蛋白质二级结构法的基本步骤中,介绍了一些简单的特征提取模型和常用的一些机器学习分类器:k-近邻算法,贝叶斯分类器和支持向量机。 在第三章中,我们将给出预测蛋白质的二级的一个新方法。我们应用了一个被称为线性预测编码的信号处理工具,并使用它从蛋白质序列提取序列特征和预测蛋白质二级结构类。首先,使用PSI-BLAST工具将原始的蛋白质序列中的进化信息转化为位置特异性得分矩阵。其次,线性预测编码算法将被应用于从蛋白质序列对应的位置特异性得分矩阵中提取氨基酸之间的位置相关性特征并且将最终的线性预测编码系数作为预测模型的特征向量。最后,基于支持向量机的交叉验证试验表明我们所提出的方法应用在四个标准数据集上取得较好的全局精确度。本文提供了一个新的特征提取方法并且在蛋白质二级分类问题上取得较好的表现。