论文部分内容阅读
蛋白质的功能与其亚细胞位置有着密切的联系,对于确定一个未知特性蛋白质的功能,基于机器学习的蛋白质亚细胞定位预测研究能够为其提供重要的参考信息。本文主要关注亚细胞定位预测中的信息提取算法,研究内容如下:(1)基于AAindex数据库挖掘的信息提取算法。根据氨基酸的理化性质,采用自相关函数和氨基酸约化分类的信息提取方法扫描AAindex数据库中的544种氨基酸指数,系统的研究不同的氨基酸指数、不同的约化方法、不同的信息提取算法在蛋白质亚细胞定位预测中的影响。(2)基于PSI-BLAST同源比对的信息提取算法。目前的研究在使用PSI-BLAST构建比对数据库时存在冗余及效率低下的问题,本文提出一种新的PSI-BLAST构建比对数据库的方法:采用训练集本身替换常用的NR数据库。这种构建策略能够更好的提取同源信息和排除冗余数据的干扰,在蛋白质的亚细胞定位预测中发现这种方法大大提高了比对效率,并且能够取得较高的预测准确率。(3)基于蛋白序列黄金比例分段的信息提取算法。根据蛋白质序列从N端到C端的不同部位涵盖着不同的信息,本文引入黄金比例对蛋白质序列进行分段处理,分段后统计片段的组分信息和位置信息;对蛋白序列的PSSM矩阵,根据黄金比例分割成若干个不同的子矩阵,统计子矩阵的进化信息。通过本文研究发现,根据分段统计的组分信息、位置信息、进化信息构建的融合模型能够显著提高亚细胞定位预测的准确率。另外,本文基于主成分分析开发了一种特征子集搜索算法,此算法能在降维的同时显著提高预测准确率。