基于集成多标记学习的蛋白质亚细胞定位预测系统研究与实现

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:zhangchenglin427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,随着高通量测序技术的不断发展和应用,亚细胞位置未知的蛋白质序列数据海量积累,同时具有多个亚细胞位置的蛋白质数量也快速增长,只靠传统的实验手段进行蛋白质亚细胞定位已越来越难以适应这种形势,于是基于机器学习的蛋白质亚细胞定位预测方法逐渐发展起来,这种方法大都采用分类学习的手段进行预测。对预测方法进行研究有助于蛋白质亚细胞定位问题的解决,而蛋白质的亚细胞位置信息能够为进一步确定蛋白质的功能提供非常有价值的线索,这有利于加速对蛋白质“序列-结构-功能”映射关系的解密,为蛋白质数据的注释和管理提供支持。在已经出现的蛋白质亚细胞定位预测方法中,对集成多标记学习技术的应用还比较少,而且大都只关注对特定问题、特定算法或技术的研究,缺少对通用型可扩展预测系统的探索,特别是针对基于集成多标记学习的预测系统。研究构建集成多标记学习模型的底层基础结构,为进一步实现基于集成多标记学习的蛋白质亚细胞定位预测系统建立良好支持,同时也为设计解决其它多标记学习问题的系统提供模型参考,这在理论和实践方面都具有一定的价值和意义。为了促进集成多标记学习技术在蛋白质亚细胞定位预测问题中的应用,本文对集成多标记学习系统底层接口体系的设计、集成多标记学习系统框架的构建和蛋白质亚细胞定位预测系统的实现等方面进行了研究,并将预测系统应用于蛋白质亚细胞定位预测中,对其功能操作和预测性能进行了分析,主要研究内容包括:1.在对学习算法进行梳理和归类的基础上,形成了一种广义的称为“面向标记集的学习算法”新类型。在此基础上,结合二分类学习、面向标记集的学习、集成学习、优化学习和面向对象技术等内容,设计了一种通用型可扩展的三层集成多标记学习模型,通过设计模型的类体系接口,构建出了一个集成多标记学习Java类库EMLL.jar,为扩展实现解决多标记学习问题的系统奠定基础。2.在EMLL.jar类库、样本表示和性能度量的基础上,通过扩展实现各层中的学习方法,进一步构建了一种集成多标记学习系统框架,并对其进行了形式化表示,详细描述了学习系统的构建流程和执行过程。在个体学习层,直接或改造实现了若干现有的二分类算法、多分类算法和多标记学习算法。另外,利用ECOC、一对一、一对多、多对多等策略设计出几种新的面向标记集的学习方法,为个体分类器的多样性提供支持。在集成学习层,设计并实现了若干用于确定集成操作中所用个体分类器组合的集成模式和如何对这些个体分类器进行集成的集成策略,二者为生成集成分类器提供支持。在优化学习层,设计了一种基于预测可信度和粒子群优化的加权分类器优化方法,该优化方法的应用使预测性能得到了提高。通过流程性界面设计和多线程技术实现对整个学习系统执行过程的控制,以配置属性方式提供了对系统功能和性能需求的灵活动态扩充手段,发布了框架的Java类库EMLLS.jar,为二次开发提供了可行性。3.针对蛋白质亚细胞定位预测问题,在三层学习结构和EMLLS.jar学习系统框架库基础上,以实现和改进若干蛋白质特征表示方法为前提,实现了一个基于集成多标记学习的蛋白质亚细胞定位预测系统。系统能够对蛋白质序列数据集进行简化格式存储和轻量级访问,同时提供了若干蛋白质特征处理方法。另外,通过对亚细胞组合在蛋白质序列数据集中出现频率的统计,探索了一种体现相关标记和无关标记信息的蛋白质亚细胞位置关联模型,并以此为依据提出了一种过滤优化学习方法。经过在测试数据集上运行预测系统,对系统的功能进行了验证。运行结果表明,从配置数据的读取、学习方式的设置和数据集的载入,到个体学习、集成学习、优化学习和最终分类器的生成与序列化等在线学习阶段的任务执行,再到离线预测阶段的功能操作,整个过程都能够正常进行,验证了系统功能的可操作性。4.为了度量系统的预测性能,分别在革兰氏阳性细菌蛋白质和动物蛋白质两个数据集上进行了实验。实验中对特征融合和特征集成进行了比较,对个体学习、集成策略和优化方法进行了测试,分析了在不同亚细胞和不同亚细胞数目上预测性能的差异,对比了不同度量指标对学习过程指导的差别,讨论了蛋白质亚细胞位置关联模型在预测中所起的作用。通过对实验结果进行综合分析并与相关的研究进行比较,表明了本文所实现的预测系统具有较好的预测性能。综上所述,本文设计并实现了一种可扩展的三层集成多标记学习系统模型,并基于该系统扩展出一个用于解决蛋白质亚细胞定位问题的预测系统,实验结果表明系统具有功能上的可操作性和预测性能上的有效性。通过添加新的特征、算法等元素增强系统的预测性能,为进行蛋白质亚细胞定位预测的研究提供了一个良好的实验操作平台。然而,本文对蛋白质特征提取缺少较全面的探索,对蛋白质亚细胞位置关联模型的表示形式和作用尚需进一步提升。引入更加有效的特征表示、设计性能更好的学习算法、进一步改善系统并提供基于Web方式的应用是将来的主要研究方向。
其他文献
企业家是作为法人代表直接经营企业并且在很大程度上决定企业命运的经营者。以企业相对独立的经济利益为基础 ,企业家激励有自激励与外在激励之别。经营业绩的相对性和报酬形
国有军工企业实现军品、民品同步发展的战略转型不仅是中国国防科技工业调整产业结构、发展国防经济的需要,更是军工企业实现可持续发展的需要。首先从国防科技工业发展的大
本文立足于对高校图书情报管理的现状认识,基于网络时代的大背景,首先阐述了新时期高校图书情报管理模式的构建,并在此基础之上,论述了新时期推进高校图书情报管理模式创新发
本文分析了当前我国城市贫困人口的新变化 ,针对我国城镇出现的新贫困人口现象 ,提出了新贫困人口的界定 ,剖析了新贫困人口生成背景和特征。作者根据近年来城市扶贫的现状 ,
通过对改革以来江苏省65个县级单元区域经济差异格局变化进行研究表明:1978年以来江苏省区域经济总体差异呈扩大态势。根据Mann-Kendall法的突变点分析,改革开放以来江苏省区
精馏操作过程中 ,气液返混现象对精馏传质效率有重要影响。为预测其影响规律 ,文内针对含有错流塔板且气相预混合的精馏塔 ,提出了气液返混发生时计算精馏效率的混合池模型。
日前,受国际经济低速增长、中国整体经济疲软和电子商务迅猛发展的冲击性影响,原来"一铺养三代"、"若要富,买商铺"的投资观念,受各种市场环境因素的制约,正遭遇巨大挑战。以
某公司生产的规格为PL20mm×3 000mm×12 000mm的S355ML+Z35钢板在使用前复验检出厚度方向(z向)性能不合格。采用断口宏观分析、化学成分分析、力学性能测试、金相检验等方法,
互联网时代的到来与图书情报管理的紧密结合势在必行,网络发展对传统图书情报管理带来巨大变化。以网络图书情报管理的变革为依据,对当下发展情况作出具体概述,并对发展中遇
比较22名早孕妇女和20名非妊娠健康妇女的体表胃电图,结果发现早孕妇女胃电活动有较多类型的异常如胃动过缓、节律紊乱、餐后频率减退、振幅增加不明显等。这些异常的胃电活动可能