论文部分内容阅读
根据蛋白质序列信息预测其在不同细胞器或细胞区域(即亚细胞,如细胞核、线粒体、细胞质和细胞膜等),称为蛋白质亚细胞定位。它是蛋白质组学与蛋白质功能研究的基础工作。在以往的研究中,将蛋白质亚细胞定位主要看成多类问题。但是,生物实验观测到,蛋白质可能存在于细胞中的一个或者多个亚细胞位置,因此它是一个典型的多标签分类问题。本文在多标签设置下,研究蛋白质亚细胞定位问题。 本文研究分成两大步骤: 第一、蛋白质序列特征的构建; 第二、应用多标签分类算法预测蛋白质亚细胞位置。 在构建蛋白质序列特征中,为了有效的表征蛋白质的序列特征,本文首先对氨基酸组成,氨基酸的物化特性,基因本体等做了讨论。然后提出了蛋白质序列特征构建的流程,并且详细阐明了特征构建的方法,包括:原始序列处理,Pse-AAC模型构建和GO模型构建。最后,根据提出的蛋白质特征表征的方法构建了七个不同特征表征的蛋白质序列数据集,其中每个数据集内包含病毒、植物、革兰氏阴性菌、革兰氏阳性菌、人类和真核细胞6个物种的子数据集,共有42个独立的数据集。 在蛋白质亚细胞定位算法比较中,本文应用OVR-kNN、ML-kNN、Rank-SVM和SVM-ML四种多标签分类算法对此问题进行实验。首先以Recall为指标,用3折叠交叉验证的方法进行网格搜索,找到每个数据集的最优参数。然后,利用最优参数对每个数据集做10折叠交叉验证,得到实验结果。实验结果表明: 1、对于七种不同特征表征的蛋白质序列数据集,用Pse-AAC模型修补二进制GO模型的特征表征的方法更加有效; 2、OVR-kNN算法要比其他三种算法速度快; 3、基于SVM的算法取得的实验性能好于基于.kNN的算法; 4、SVM-ML算法在指标Recall上的性能好于同类型的Rank-SVM算法,也好于基于kNN的算法。 最后,将用“留一法”得到病毒和植物的实验结果与现存方法进行比较,本文研究方法的性能要优于Cell-Ploc和Cell-PLoc2.0算法,与mGOASVM算法相近。