论文部分内容阅读
随着人类基因组计划的顺利实施,海量的基因和蛋白质数据随之产生,再加上互联网的发展与普及,生物信息学在近些年来得到了迅猛发展。DNA是遗传信息的携带者,蛋白质是生物体的基本构件,是生命活动的重要物质基础。生物体的一切生命活动都要通过蛋白质的结构和功能体现出来。研究发现蛋白质的功能是由其内在结构决定的,蛋白质的一级序列决定其高级结构,蛋白质序列分析是生物信息学中一个非常重要的基础性问题。本文从编码20中氨基酸的密码子出发,利用数学工具与方法,计算氨基酸的图能量(Graph Energy)和拉普拉斯能量(Laplacian Energy),构建模型对蛋白质序列进行数值刻画,进而对蛋白质序列进行相似性分析以及亚细胞定位预测。本论文的主要研究工作以及创新点如下: (1)首先从编码20种氨基酸的密码子出发,基于一种新颖的DNA序列的二维图形表示,构造了20中氨基酸的图形表示。应用图论知识引入了20种氨基酸的图能量和拉普拉斯能量。首次将图能量和拉普拉斯能量引入蛋白质序列的研究中来,并提出一种蛋白质序列的新颖的二维图形表示。事实证明,本文提出的蛋白质序列的图形表示方法是简单的、有效可行的:无重叠和交叉、未丢失序列信息、视觉效果直观。 (2)基于本文提出的氨基酸的图能量,提出了蛋白质序列的图能量的概念,并给出了计算方法,进一步定义了蛋白质序列图能量增益的概念及计算方法。进而提出了一种依赖于数据集中蛋白质序列的相似性分析模型。通过分析ND5和36条蛋白质序列两个数据集,建立了相似性分析模型。为验证模型的有效性,将模型应用到24条转铁蛋白和27条抗冻蛋白两个数据集上,均得到了与现有算法一致甚至更好的结果。 (3)在建立蛋白质序列用二维图形表示之后,采用离散小波变换的方法构建每条蛋白质序列的特征向量。这样把蛋白质序列转换为相应的特征向量,再应用支持向量机进行蛋白质亚细胞定位预测。本文比较分析了凋亡蛋白数据集CL317、ZD98和ZW225,在Jackknife检验下总体的分类精确度分别达到99.4%、99.0%和98.7%。较以前的方法有了更高的准确率,分类性能也有了很大的优化,并且新算法更为简洁、容易实现。另外,将本文提出的方法(DWT_SVM)应用到由有一个或多个亚细胞位点的蛋白质组成的真核基准蛋白数据集iLoc8897上,得到了理想的结果:较高的整体准确率和平均正确率,尤其对某些细胞器的预测结果达到前所未有的高度。 事实证明,本文提出的20种氨基酸的图能量和拉普拉斯能量在一定程度上能很好的表征20种氨基酸,基于此提出的蛋白质序列的新的二维图形表示方法是简单的、有效可行的。在此基础上,本文提出蛋白质相似性分析模型和蛋白质亚细胞定位预测模型有效可行的、易于实现的。