基于机器学习的多定位点蛋白质亚细胞定位预测方法研究

来源 :大连理工大学 | 被引量 : 13次 | 上传用户:beckham11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质的亚细胞定位信息对于推断蛋白质功能、了解细胞的生命活动、药物发现、以及疾病诊断等方面的研究具有重要的作用。近十年间蛋白质序列数量迅速增长,基于智能计算的蛋白质亚细胞定位预测方法已成为系统生物学和生物信息学等领域的一个研究热点。本论文应用机器学习方法对多定位点蛋白质亚细胞定位预测中的相关问题进行了研究,主要包括:1.提出了一种具有不平衡权重的多标签K近邻预测算法,以解决蛋白质数据分布不平衡的问题。该算法利用近邻点的统计信息估计待测样本关于亚细胞位置的后验概率,并根据训练集中各类样本的分布情况给出相应的不平衡权重,最后基于最大后验概率准则和不平衡权重来设计决策函数。在多个分布不平衡的蛋白质数据集上的数值实验结果表明,与两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell相比,该算法具有更好的预测精度,能够有效降低数据不平衡情况的负面影响。2.提出了一种基于非实验标注蛋白质信息挖掘的训练集构造方法,以解决蛋白质训练样本不足的问题。该方法引入非实验标注蛋白质,利用主动学习策略对这类数据进行评估,挑选出最有价值样本加入到原训练集中以构造出更具信息量的新训练集。多组数据集上的实验表明,INKNN、支持向量机、高斯过程和ML-RBF四种基础分类器的性能均能够得到提升,训练数据不足的情况得到了有效的改善。3.提出了一种基于蛋白质预鉴别的综合预测方法,以解决一个分类器同时预测单定位点蛋白质和多定位点蛋白质精度不高的问题。该方法基于直推学习技术对待测蛋白质的类型进行预鉴别,再对单定位点蛋白质和多定位点蛋白质使用独立的分类器分别进行预测。在多个数据集上进行实验,结果表明该方法能够有效地鉴别待测蛋白质的类型,其预测性能优于两种主要的多定位点蛋白质预测算法Cell-mPLoc2.0和iLoc-Cell。
其他文献
以优选工艺,进行单宁酸溶液处理Fe-30Mn-2.7Si恒弹性合金,在其表面形成化学转化膜.采用X射线衍射与扫描电镜及在1moL/L Na2SO4溶液中测定阳极极化曲线与电化学阻抗谱等技术研究化
番茄红素是成熟番茄的主要色素,纯品为针状深红色晶体,是一种不含氧的类胡萝卜素。其有很强的抗氧化活性和清除自由基的功效,是迄今为止自然界中被发现的最强抗氧化剂之一。
随着我国加入世界贸易组织以来,为社会各行各业带来巨大发展机遇的同时,我国经济也面临着严峻的挑战。电力行业作为我国国民经济重要的组成部分,社会生产生活对电能的需求量
粒计算理论之一——商空间理论,是张铃、张钹教授模拟人类智能解决问题思路而提出的人工智能求解问题的计算模型。商空间理论通过论域、属性和结构三元组(X,f,T)来描述问题,
2015年11月8-14日,山东省新泰市举办农产品展销会,新泰市军粮供应站展出的军供品牌粮油倍受参观者青睐.该站参展粮油25个品种,军供品牌格外引人注目,不时有人前来洽谈业务购买
采用粉末冶金技术,制备了铜基陶瓷强化摩擦材料.通过定速摩擦试验机,测试了摩擦压力、摩擦速度和干湿条件对材料摩擦磨损性能的影响.结果表明:在干摩擦条件下,系数大于0.3,摩擦系数稳
双足机器人模仿人类的行走方式,特别适合辅助或替代人类进行一些工作。双足步行机器人是工程上少有的高阶、非线性、非完整约束、强耦合性的多自由度系统,双足机器人的步行运
由于大多数的工业过程都可以描述成多变量系统,因此,多变量控制系统一直是工业过程控制领域中的研究热点之一。工业过程中常用的控制策略,比如分散PI/PID控制和解耦控制,都因
中秋节来临之际,很多朋友可能都收到了亲朋赠送或单位发放的月饼,甚至两三盒、四五盒。月饼这东西既高油,又高糖,无论怎样花样翻新,都不可能像蔬菜水果那样适合大量食用。食
切换系统广泛应用于航空航天、汽车工业和生物工程等领域,从而对切换系统的研究具有理论意义和应用价值.本文对切换系统的输入-状态稳定性和模型预测控制问题进行了深入研究.