论文部分内容阅读
蛋白质只有处于特定的细胞器如线粒体、细胞核、细胞质等,才能参与正常的生命活动。蛋白质亚细胞定位信息可以为蛋白质功能的预测提供有用的线索,也能对蛋白质的相互作用、进化研究等提供必要的信息。生物实验方法既费时又费力,在实际应用中远远不能满足生物序列数据急剧增长的需要。为了加速蛋白质结构和功能的注解进程,越来越多的研究者利用智能计算方法进行蛋白质亚细胞定位预测。本文针对蛋白质信息的提取、融合及预测等信息处理问题,主要研究内容如下:1.综述了近几年蛋白质亚细胞定位预测的研究进展,主要是蛋白质序列的特征信息提取和预测分类算法。常见的特征表示有氨基酸组分信息,伪氨基酸组分信息和位置特异性得分矩阵等,以及后来研究者逐渐广泛使用的基于基因本体论和功能域等的方法。预测分类方法主要是支持向量机和K近邻等。2.提出了一种基于氨基酸的进化保守信息和位置特异性得分矩阵信息融合的蛋白质亚细胞定位预测方法。基于氨基酸序列提出蛋白质序列的进化信息和保守信息;对氨基酸序列的位置特异性得分矩阵进行分割,经不同分割比例实验结果发现黄金分割比例达到最优,进而提出黄金分割法并统计分割后片段的组分信息;将以上几种信息融合应用于凋亡蛋白数据集的亚细胞定位预测,ZD98数据集和CL317数据集的全局准确率分别达到98.98%和91.11%。3.提出了一种基于蛋白质序列的共有序列组分信息和基因本体论信息融合的蛋白质亚细胞定位预测方法研究。基于原始序列和共有序列信息提取,结合氨基酸的物化性质信息,通过搜索基因本体论数据库得到GO注释信息,主成分分析算法用于特征挑选,结合支持向量机方法进行预测。革兰氏阳性和阴性数据集分别可达到96.15%和95.95%的准确率。与现有的方法进行比较,结果显示了该方法的有效性。