蛋白质亚细胞定位预测相关问题研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:nilly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质组学研究的一个重要任务是在细胞水平上研究探讨蛋白质执行完成、控制生命活动的内在规律,分析蛋白质功能与亚细胞定位、环境的关系,从而更加清楚地认识蛋白质参与生命活动的内在特点。由于蛋白质亚细胞定位预测可以为了解蛋白质功能提供重要线索,目前已成为生物信息学研究的热点问题之一。本文主要以蛋白质亚细胞定位预测为主题,针对蛋白质序列的编码方法、特征选择技术、分类算法以及分泌蛋白信号肽剪切位点识别等几个方面问题进行了研究,其主要内容和创新之处包括:(1)蛋白质序列编码方法研究。蛋白质序列编码是计算机算法分析的基础,也是决定系统预测性能的重要因素,具有重要的生物学意义。经过多年的探索,研究人员提出了各种不同的序列编码方法,其中大部分侧重于多信息资源的综合利用。然而,到目前为止人们还没有找到一种非常有效的方法。为此,本文从序列编码方法入手,利用自相关函数和氨基酸残基的10种生物化学性质,并结合蛋白质序列的氨基酸组成特征和二肽组成特征,构建了一个编码蛋白质序列的混合特征集,提出了一种基于AAindex的蛋白质亚细胞定位方法。自相关函数是一种基于氨基酸索引(amino acid index,AAindex)的特征描述方法,它不仅考虑了氨基酸残基之间的耦合作用,也包含了序列的长度信息,在一定程度上弥补了氨基酸组成和二肽组成所丢失的部分有用信息。基于本文提出的序列编码方法,论文利用最近邻算法对蛋白质亚细胞定位数据进行了测试,取得了良好的预测性能。与同类其它方法相比,本文方法具有一定的优势,说明该方法是可行的。(2)蛋白质特征选择技术研究。无论是分类器的训练过程,还是分类器的识别过程,都要利用样本的特征。而在设计分类系统时,一般情况下可利用的特征集的维数往往很大。如果将这些特征不加分析地全部作为分类特征,识别过程将会有很大的工作量,分类效果也不一定好,甚至会导致特征维数灾难。所以,在数据分析之前进行特征选择过程就显得尤为重要。本文利用特征选择技术对蛋白质亚细胞定位预测问题和G-蛋白耦联受体(G-protein coupled receptors,GPCRs)识别问题进行了探索性研究,分别构建了基于支持向量机的过滤特征选择方法和封装特征选择方法,并利用选出的特征集对蛋白质进行了分类研究。蛋白质特征选择的目的是通过摒弃那些不相关的的或冗余的蛋白质特征,构建更为紧凑的蛋白质序列特征描述方法,以增强识别结果的可理解性和可用性。实验研究表明,利用选择的特征子集不仅可以加快系统的识别速度,而且还有可能提高系统的分类性能,这也证实了特征选择方法的有效性。(3)蛋白质分类算法研究。算法研究一直是生物信息学研究的重点内容,涉及生物信息学的各个领域。对于同样的生物学数据和特征集,选择不同的算法可能会对系统性能产生较大影响。基于实例的学习,典型的如最近邻算法,是机器学习中一种常用的方法。然而在实际的生物信息学问题中,由于训练样本的数量往往是非常有限的,使得最近邻方法的分类性能受到一定限制。因此,本文在最近邻方法的基础上介绍了两类新的模式分类方法,最近特征线和可调近邻方法,并将它们用于蛋白质亚细胞定位预测研究,取得了优于最近邻方法的识别精度。这两类方法在未能获取更多训练样本的情况下,能够通过扩展现有样本描述能力的方式提高系统的分类性能,尤其适合于对小样本数据的识别。上述方法的一个主要缺点是计算量大,不太适合大样本数据的识别。为了缩短运算时间,本文在最近特征线方法的基础上提出了一种称为中心最近邻的模式分类方法。与最近特征线方法相比,这种方法不仅可以大大降低计算的复杂度,而且识别精度也不会明显降低。通过对实际蛋白质数据的分析,中心最近邻方法同样取得了优于最近邻方法的识别精度,证明了该方法的有效性。(4)信号肽剪切位点识别方法研究。无论是在原核生物还是在真核生物中,信号肽都控制着几乎所有蛋白质到分泌通路的入口。它们位于氨基酸序列的N端,在蛋白质转运到细胞膜时被剪切掉。由于数据库中存在大量未经处理的蛋白质数据,信号肽及其剪切位点的识别引起了人们浓厚的兴趣。本文利用隐Markov模型(HMM)研究了模式生物大肠杆菌信号肽剪切位点的识别问题。在整个识别过程中,论文考虑了序列数据的统计特性和信号肽剪切位点附近氨基酸残基之间的耦合规则,将这些生物学知识与隐Markov模型相结合,加入了一个筛选过程,以进一步提高系统的识别精度。本文使用LOOCV方法对系统性能进行了评估,其预测准确率达到了85.6%,取得了理想的识别效果。
其他文献
本文以低维钒氧化物纳米材料为研究对象,将传统纳米储能材料研究方法与新型微纳电化学器件相结合,在获得优良电化学性能的同时,深入分析了低维纳米材料中电子和离子的传输与
雷达是获取现代战场情报信息的重要手段。传统的单基地雷达由于观测视角单一,从而获取到的目标信息相对有限。面对电子对抗技术的飞速发展,单基地雷达在生存能力和抗干扰能力
1、目的通过口服培元散方药治疗全膝关节置换术后疼痛,比较受试患者的红细胞沉降率(ESR)、血红蛋白(HGB)、患者膝关节疼痛评分(VAS)、膝关节功能(HSS)评分。明析培元散加减治
我国经济持续快速发展,人们物质生活水平日益提升,汽车普及率逐年攀升。汽车的普及改变了人们的出行方式,提高了人们的生活质量,然而同时也面临日益严峻的环境污染问题和能源枯竭困境。我国的企业、高校以及科研院所在电动汽车相关技术的研发中持之以恒,坚持创新,坚持走自主研发之路,坚持发展自主知识产权体系,为我国汽车产业未来的发展奠定了坚实的基础。本文通过对国内外电动汽车核心领域以及相关电动汽车重点企业的专利数
"Well begun,half done(好开端,就是成功的一半)"。高中英语教学可以尝试使用的课堂导入方法很多,内容很丰富丰富。有图片导入、游戏导入、视听导入、时事导入、背景知识导入
在大型土木工程和水利工程基础建设中岩石-混凝土一体两介质中岩石和混凝土二者之间的相互作用一直是困扰工程稳定性的一大难题。岩石-混凝土一体两介质结构所处的环境复杂,
为了解苹果生产过程中农药的残留污染,用气相色谱法对河北省6个市苹果果实中的5种不同农药残留含量进行了测定,结果表明:苹果中甲氰菊酯含量最高的是衡水,其值为0.033mg/kg;氯
光系统(Photosystem;PS)I位于类囊体膜上,参与线性电子传递、循环电子传递及水水循环等等,在有机物积累和温室气体移除等方面发挥着重要的作用;总得来说PSI的缺失会导致光合作
存货核算系统是畅捷通T3财务业务一体化中的一个重要功能模块,对于采购暂估,系统提供了三种处理方法,即月初回冲、单到回冲和单到补差。本文通过举例对三种处理方法分别进行
神经祖细胞(Neural Progenitor Cell,NPC)移植结合电刺激技术是一种非常具有应用前景的神经退行性疾病治疗策略,而在细胞移植过程中存在的细胞流动和细胞存活率低等问题可以