论文部分内容阅读
特征提取和分类算法是蛋白质功能预测的核心步骤。蛋白质功能的确定有助于阐明生命体在生理或病理条件下的变化机制,并且对于疾病预防和药物开发等方面都有着十分重要的推动作用。随着生物信息学的不断发展以及相关数据的大量积累,使用科学计算方法对未知蛋白质进行功能预测成为后基因组时代生物信息学中的重要研究课题,所以蛋白质序列的特征提取和分类算法也成为当前生命科学研究的首要任务之一。本课题主要对蛋白质功能预测中的序列特征提取方法、分类算法进行研究,并设计适当的特征提取方法和分类算法在蛋白质序列数据上进行功能预测的实验。本文的主题工作包括:1.提出了一种基于BLAST比对的特征提取方法。本方法打破了现有的基于BLAST序列比对的特征提取模式,利用B12Seq的相似性分析结果,得到评价片段相似性的E-Value数列和Score数列。根据两者所代表的意义以及组成特点,提出一种新颖的蛋白质序列特征提取的方法。为了证明算法的有效性,将此方法与现有的此类特征提取方法分别应用于蛋白质功能预测的实验,实验结果证明新方法更全面、准确的体现了序列特征,有助于取得更高的预测准确率。2.提出了一种基于距离权重的分类算法。该分类方法的思想是:在传统K近邻算法的基础上加以改进,为每个近邻赋予一定的决策权重,将近邻序列与未知序列的相似距离作为权重的参数。分类时,近邻序列的数量与近邻序列的权重都起到了一定的决策作用。将该分类算法与基于分组重量编码的特征提取算法相结合,进行蛋白质序列的功能,预测。实验结果表明:这种方法具有数学模型简单,计算复杂度低,分类准确率较高等优点。