论文部分内容阅读
蛋白质组学研究的一个重要任务是在细胞水平上研究探讨蛋白质执行完成、控制生命活动的内在规律,分析蛋白质功能与亚细胞定位、环境的关系,从而更加清楚地认识蛋白质参与生命活动的内在特点。由于蛋白质亚细胞定位预测可以为了解蛋白质功能提供重要线索,目前已成为生物信息学研究的热点问题之一。本文主要以蛋白质亚细胞定位预测为主题,针对蛋白质序列的编码方法、特征选择技术、分类算法以及分泌蛋白信号肽剪切位点识别等几个方面问题进行了研究,其主要内容和创新之处包括:(1)蛋白质序列编码方法研究。蛋白质序列编码是计算机算法分析的基础,也是决定系统预测性能的重要因素,具有重要的生物学意义。经过多年的探索,研究人员提出了各种不同的序列编码方法,其中大部分侧重于多信息资源的综合利用。然而,到目前为止人们还没有找到一种非常有效的方法。为此,本文从序列编码方法入手,利用自相关函数和氨基酸残基的10种生物化学性质,并结合蛋白质序列的氨基酸组成特征和二肽组成特征,构建了一个编码蛋白质序列的混合特征集,提出了一种基于AAindex的蛋白质亚细胞定位方法。自相关函数是一种基于氨基酸索引(amino acid index,AAindex)的特征描述方法,它不仅考虑了氨基酸残基之间的耦合作用,也包含了序列的长度信息,在一定程度上弥补了氨基酸组成和二肽组成所丢失的部分有用信息。基于本文提出的序列编码方法,论文利用最近邻算法对蛋白质亚细胞定位数据进行了测试,取得了良好的预测性能。与同类其它方法相比,本文方法具有一定的优势,说明该方法是可行的。(2)蛋白质特征选择技术研究。无论是分类器的训练过程,还是分类器的识别过程,都要利用样本的特征。而在设计分类系统时,一般情况下可利用的特征集的维数往往很大。如果将这些特征不加分析地全部作为分类特征,识别过程将会有很大的工作量,分类效果也不一定好,甚至会导致特征维数灾难。所以,在数据分析之前进行特征选择过程就显得尤为重要。本文利用特征选择技术对蛋白质亚细胞定位预测问题和G-蛋白耦联受体(G-protein coupled receptors,GPCRs)识别问题进行了探索性研究,分别构建了基于支持向量机的过滤特征选择方法和封装特征选择方法,并利用选出的特征集对蛋白质进行了分类研究。蛋白质特征选择的目的是通过摒弃那些不相关的的或冗余的蛋白质特征,构建更为紧凑的蛋白质序列特征描述方法,以增强识别结果的可理解性和可用性。实验研究表明,利用选择的特征子集不仅可以加快系统的识别速度,而且还有可能提高系统的分类性能,这也证实了特征选择方法的有效性。(3)蛋白质分类算法研究。算法研究一直是生物信息学研究的重点内容,涉及生物信息学的各个领域。对于同样的生物学数据和特征集,选择不同的算法可能会对系统性能产生较大影响。基于实例的学习,典型的如最近邻算法,是机器学习中一种常用的方法。然而在实际的生物信息学问题中,由于训练样本的数量往往是非常有限的,使得最近邻方法的分类性能受到一定限制。因此,本文在最近邻方法的基础上介绍了两类新的模式分类方法,最近特征线和可调近邻方法,并将它们用于蛋白质亚细胞定位预测研究,取得了优于最近邻方法的识别精度。这两类方法在未能获取更多训练样本的情况下,能够通过扩展现有样本描述能力的方式提高系统的分类性能,尤其适合于对小样本数据的识别。上述方法的一个主要缺点是计算量大,不太适合大样本数据的识别。为了缩短运算时间,本文在最近特征线方法的基础上提出了一种称为中心最近邻的模式分类方法。与最近特征线方法相比,这种方法不仅可以大大降低计算的复杂度,而且识别精度也不会明显降低。通过对实际蛋白质数据的分析,中心最近邻方法同样取得了优于最近邻方法的识别精度,证明了该方法的有效性。(4)信号肽剪切位点识别方法研究。无论是在原核生物还是在真核生物中,信号肽都控制着几乎所有蛋白质到分泌通路的入口。它们位于氨基酸序列的N端,在蛋白质转运到细胞膜时被剪切掉。由于数据库中存在大量未经处理的蛋白质数据,信号肽及其剪切位点的识别引起了人们浓厚的兴趣。本文利用隐Markov模型(HMM)研究了模式生物大肠杆菌信号肽剪切位点的识别问题。在整个识别过程中,论文考虑了序列数据的统计特性和信号肽剪切位点附近氨基酸残基之间的耦合规则,将这些生物学知识与隐Markov模型相结合,加入了一个筛选过程,以进一步提高系统的识别精度。本文使用LOOCV方法对系统性能进行了评估,其预测准确率达到了85.6%,取得了理想的识别效果。