蛋白质亚细胞定位预测中若干信息提取算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:qq664374004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的功能与其亚细胞位置有着密切的联系,对于确定一个未知特性蛋白质的功能,基于机器学习的蛋白质亚细胞定位预测研究能够为其提供重要的参考信息。本文主要关注亚细胞定位预测中的信息提取算法,研究内容如下:(1)基于AAindex数据库挖掘的信息提取算法。根据氨基酸的理化性质,采用自相关函数和氨基酸约化分类的信息提取方法扫描AAindex数据库中的544种氨基酸指数,系统的研究不同的氨基酸指数、不同的约化方法、不同的信息提取算法在蛋白质亚细胞定位预测中的影响。(2)基于PSI-BLAST同源比对的信息提取算法。目前的研究在使用PSI-BLAST构建比对数据库时存在冗余及效率低下的问题,本文提出一种新的PSI-BLAST构建比对数据库的方法:采用训练集本身替换常用的NR数据库。这种构建策略能够更好的提取同源信息和排除冗余数据的干扰,在蛋白质的亚细胞定位预测中发现这种方法大大提高了比对效率,并且能够取得较高的预测准确率。(3)基于蛋白序列黄金比例分段的信息提取算法。根据蛋白质序列从N端到C端的不同部位涵盖着不同的信息,本文引入黄金比例对蛋白质序列进行分段处理,分段后统计片段的组分信息和位置信息;对蛋白序列的PSSM矩阵,根据黄金比例分割成若干个不同的子矩阵,统计子矩阵的进化信息。通过本文研究发现,根据分段统计的组分信息、位置信息、进化信息构建的融合模型能够显著提高亚细胞定位预测的准确率。另外,本文基于主成分分析开发了一种特征子集搜索算法,此算法能在降维的同时显著提高预测准确率。
其他文献
磷酸银是一种新型、高效且可见光响应的光催化剂,目前对磷酸银的复合改性研究还较少,所以本论文围绕磷酸银这一新型催化剂进行复合,主要的研究内容如下:  (1)通过共沉淀法合成
目的:甲基汞是一种全球性环境污染物,是无机汞通过微生物和植物的生物转化而生成,人体的主要暴露途径为食用被甲基汞污染的鱼贝类和稻米。甲基汞对人体各组织系统如神经系统、