多标签设置下的蛋白质亚细胞定位研究

来源 :南京师范大学 | 被引量 : 7次 | 上传用户:gaolch010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据蛋白质序列信息预测其在不同细胞器或细胞区域(即亚细胞,如细胞核、线粒体、细胞质和细胞膜等),称为蛋白质亚细胞定位。它是蛋白质组学与蛋白质功能研究的基础工作。在以往的研究中,将蛋白质亚细胞定位主要看成多类问题。但是,生物实验观测到,蛋白质可能存在于细胞中的一个或者多个亚细胞位置,因此它是一个典型的多标签分类问题。本文在多标签设置下,研究蛋白质亚细胞定位问题。  本文研究分成两大步骤:  第一、蛋白质序列特征的构建;  第二、应用多标签分类算法预测蛋白质亚细胞位置。  在构建蛋白质序列特征中,为了有效的表征蛋白质的序列特征,本文首先对氨基酸组成,氨基酸的物化特性,基因本体等做了讨论。然后提出了蛋白质序列特征构建的流程,并且详细阐明了特征构建的方法,包括:原始序列处理,Pse-AAC模型构建和GO模型构建。最后,根据提出的蛋白质特征表征的方法构建了七个不同特征表征的蛋白质序列数据集,其中每个数据集内包含病毒、植物、革兰氏阴性菌、革兰氏阳性菌、人类和真核细胞6个物种的子数据集,共有42个独立的数据集。  在蛋白质亚细胞定位算法比较中,本文应用OVR-kNN、ML-kNN、Rank-SVM和SVM-ML四种多标签分类算法对此问题进行实验。首先以Recall为指标,用3折叠交叉验证的方法进行网格搜索,找到每个数据集的最优参数。然后,利用最优参数对每个数据集做10折叠交叉验证,得到实验结果。实验结果表明:  1、对于七种不同特征表征的蛋白质序列数据集,用Pse-AAC模型修补二进制GO模型的特征表征的方法更加有效;  2、OVR-kNN算法要比其他三种算法速度快;  3、基于SVM的算法取得的实验性能好于基于.kNN的算法;  4、SVM-ML算法在指标Recall上的性能好于同类型的Rank-SVM算法,也好于基于kNN的算法。  最后,将用“留一法”得到病毒和植物的实验结果与现存方法进行比较,本文研究方法的性能要优于Cell-Ploc和Cell-PLoc2.0算法,与mGOASVM算法相近。
其他文献
随着计算机软硬件技术的发展,数字图像应用越来越广泛。然而,在图像采集、处理、传输和呈现的过程中,都可能引入各种失真。主观方法和传统客观方法由于自身的局限性,不能达到应用
随着传统互联网的发展和移动互联网的兴起,许多像微博、社交网络这样的内容提供商发展迅速。在互联网上,每天都有海量的文本、图像、视频数据需要处理,尤其对于图像数据,PB级别已
学位
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人可以将自己的观点、心情等信息发布到网络平台中。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品
认知科学是研究人类感觉、知觉、精神状态、大脑思维过程和信息处理过程的前沿性尖端学科,该方面的研究对揭示人脑之谜具有重要意义。认知任务的模式分类被广泛用于构建脑机交
传统机器学习技术必须建立在训练数据集和测试数据集来自同一分布的样本集的假设前提下。若测试数据集数据分布发生改变,那么就需要重新训练预测分类器以适应这种变化。然而,新
近年来,在现实生活和科学研究中产生大量的高维海量数据集,使得传统分类器面临着前所未有的挑战。而大量研究表明,特征选择通过剔除不相关特征和冗余特征可以有效地提高分类器的
调试是软件开发的一个重要环节,调试器是软件开发必不可少的工具,一个设计良好、功能完善的调试器能够大大缩短软件开发的时间。目前,国内的调试器技术发展缓慢,而国外的成品调试
起源记录了一个对象是如何演变到当前状态的。近些年,数据起源在计算机领域得到了广泛的研究,大量的研究主要集中在工作流和数据库领域,用于追踪这些应用的起源信息,便于后期
P2P电子商务作为一种新兴的电子商务模式已经在经济发展中得到了广泛的应用。与传统的电子商务模式相比较,P2P对等网络技术在提高获取商品信息的效率方面有很大的优势,表现出更