论文部分内容阅读
蛋白质的亚细胞定位信息对于推断蛋白质功能、了解细胞的生命活动、药物发现、以及疾病诊断等方面的研究具有重要的作用。近十年间蛋白质序列数量迅速增长,基于智能计算的蛋白质亚细胞定位预测方法已成为系统生物学和生物信息学等领域的一个研究热点。本论文应用机器学习方法对多定位点蛋白质亚细胞定位预测中的相关问题进行了研究,主要包括:1.提出了一种具有不平衡权重的多标签K近邻预测算法,以解决蛋白质数据分布不平衡的问题。该算法利用近邻点的统计信息估计待测样本关于亚细胞位置的后验概率,并根据训练集中各类样本的分布情况给出相应的不平衡权重,最后基于最大后验概率准则和不平衡权重来设计决策函数。在多个分布不平衡的蛋白质数据集上的数值实验结果表明,与两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell相比,该算法具有更好的预测精度,能够有效降低数据不平衡情况的负面影响。2.提出了一种基于非实验标注蛋白质信息挖掘的训练集构造方法,以解决蛋白质训练样本不足的问题。该方法引入非实验标注蛋白质,利用主动学习策略对这类数据进行评估,挑选出最有价值样本加入到原训练集中以构造出更具信息量的新训练集。多组数据集上的实验表明,INKNN、支持向量机、高斯过程和ML-RBF四种基础分类器的性能均能够得到提升,训练数据不足的情况得到了有效的改善。3.提出了一种基于蛋白质预鉴别的综合预测方法,以解决一个分类器同时预测单定位点蛋白质和多定位点蛋白质精度不高的问题。该方法基于直推学习技术对待测蛋白质的类型进行预鉴别,再对单定位点蛋白质和多定位点蛋白质使用独立的分类器分别进行预测。在多个数据集上进行实验,结果表明该方法能够有效地鉴别待测蛋白质的类型,其预测性能优于两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell。