论文部分内容阅读
生物信息学研究表明蛋白质只有转运到正确的部位才能参与细胞的各种生命活动,如果定位发生偏差,将会对细胞功能甚至生命产生重大影响。另外,蛋白质在细胞里不是静止不动的,它们在细胞里常常通过在个亚细胞环境里运动发挥作用。了解蛋白质的亚细胞定位信息,可以为我们推断蛋白质的生物学功能提供必要的帮助,同时对蛋白质的其他研究如相互作用、进化等也能提供必要的信息。反过来,对同一亚细胞区域的蛋白质功能的研究也有利于更为深刻的理解该亚细胞结构。蛋白质亚细胞定位信息的日渐重要,传统的亚细胞实验技术虽然能提供了比较精确的亚细胞定位数据,但这些技术多是昂贵、耗时的,并且重复性比较差。近年来,生物信息学在这方面开展了广泛的研究并且取得一系列很有意义的成果,数据库的构建和亚细胞定位分析及预测加速了蛋白质结构和功能的研究。而蛋白质的亚细胞定位是蛋白质的一个关键功能特征。对于日渐增长的亚细胞数据,数据的分析显得越来越重要,从中找到亚细胞定位的生物学规律并确定蛋白质功能才是我们真正关心的问题。因此,寻找一种快速而准确的方法来预测蛋白质亚细胞成为人们研究的热点问题,这也是论文研究的主要内容。分析和亚细胞定位相关的蛋白质序列特征可以为计算预测提供相关特征信息,是亚细胞定位预测的基础。利用这一基本原理,论文设计了一种基于融合算法的亚细胞定位点预测的方法。首先,建立数据集,抽取出一个高质量的亚细胞定位数据集并分为训练集和测试集;其次,从这些蛋白质数据中抽取出特征信息向量;然后,采用本文提出的基于融合思想的亚细胞定位点预测方法,综合利用前面的特征信息向量作出预测;最后,用检验数据集对预测结果进行评价。这里需要解决两个关键的问题:一是如何有效的表征蛋白质特征;二是如何有效地进行亚细胞定位点的预测,特别是多定位的情况。论文对以上两个问题进行了较为深入的研究。对于第一个问题,论文对氨基酸组成特征信息,氨基酸之间的物理化学特性,Gene Ontology,模体(motif)等做了详细分析,力图找到有效的表征特征量。第二个问题是论文的核心内容,论文研究的是亚细胞定位点预测。由于蛋白质功能的复杂性,亚细胞定位点的预测一直是一个难点,利用机器学习的方法来提高预测准确率便成为一个研究热点。本文在利用机器学习方法预测亚细胞定位点领域做了三方面的工作。其一,建立了包含多细胞位置信息的人类细胞数据集;其二,本文提出了基于改进的Dempster-Shafer融合算法的亚细胞定位点预测算法,利用多种信息源表征特征,通过融合上述特征,得到更精确的预测结果;其三,本文对同时存在多个细胞位置的有趣现象做了研究,以往的亚细胞定位点预测没有包含多定位点情况。本文所阐述的方法因其将多重特征综合考虑,能够挖掘出多亚细胞位置信息,能够预测蛋白所属于的多个亚细胞位置。论文的主要创新点有以下几点:1在最新发布的Swiss-Prot数据库的基础上,建立了包含多细胞位置信息的人类细胞数据集,且该数据集是严格的。2本文采用了最新发展起来的(Gene Ontology)GO数据库离散模型来表达一蛋白序列,通过本文大量的试验证明,GO离散模型是比AA、PseAA更高一层次的表达,因此能大大提高蛋白亚细胞位置预测的精度;3本文提出了基于改进的Dempster-Shafer融合算法的亚细胞定位点预测算法,利用全局和局部伪氨基酸组成、GO离散模型以及motif四种信息源表征特征,通过融合上述特征,得到更精确的预测结果。4本文对同时存在多个细胞位置的有趣现象做了研究,本文所阐述的方法因其将多重特征综合考虑,能够挖掘出多亚细胞位置信息,能够预测蛋白所属于的多个亚细胞位置。