基于选择性集成的在线机器学习关键技术研究

被引量 : 0次 | 上传用户:libra163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一直以来,机器学习技术在众多领域都发挥着巨大的作用。对数据进行分析处理,从中获得有用的信息和知识以便指导后续的决策,这是机器学习的最终目标。而随着互联网的普及,数据获取的手段逐渐丰富,人们获得的数据量呈指数增长,从而对传统的机器学习技术造成挑战。对于架构在互联网之上的在线交易、在线广告、金融分析以及搜索引擎等业务而言,能够对大规模、长时间、持续性的数据进行快速、有效的学习具有重要的意义。在线机器学习是对大量数据进行及时处理的重要手段,预测能力和预测效率成为在线学习方法最重要的评价标准。作为最重要的在线机器学习策略,增量学习方法可以分为单分类器增量学习和集成式增量学习。单分类器方法容易出现过适应问题,预测能力较低。而随着系统的持续运行,集成式学习方法通常会导致目标集成分类器规模不断增大,预测开销越来越大。在批量式机器学习中,选择性集成可以有效提高集成分类器的预测能力和预测效率。本文针对监督学习和分类问题,提出将选择性集成技术用于集成式增量学习,从而提高在线学习的预测能力和预测效率的思想。论文首先提出了选择性集成与增量学习相结合的在线学习模型,然后对其涉及的关键技术展开深入研究。论文的主要工作和创新包括:1、提出选择性集成与增量学习相结合的在线学习模型EPIL。本文针对各领域的实际需求以及目前在线学习技术的缺陷,提出选择性集成与增量学习相结合的在线学习模型EPIL,并阐述了该模型涉及的若干技术挑战。EPIL模型对每次增量数据集的学习均获得若干局部基分类器,然后利用局部选择剔除预测能力差的局部基分类器,并择机利用全局选择剔除已经过时的全局基分类器,使得目标集成分类器的规模小、预测能力强、具有良好的增量学习能力。2、提出基于模式挖掘的选择性集成策略及算法框架。对EPIL模型中的选择性集成技术进行研究,创新性地提出了基于模式挖掘的选择性集成策略,并构建基于该策略的选择性集成算法框架,详细分析了框架中的关键技术。在基于模式挖掘的选择性集成策略中,选择性集成问题被描述为从事务数据库中挖掘一个模式的问题,从而能够利用事务处理和模式挖掘技术进行基分类器的选择,为选择性集成方法的研究开拓了一个新的方向。3、提出两种基于覆盖模式挖掘的选择性集成算法。源于基于模式挖掘的选择性集成策略,论文首先提出了覆盖模式挖掘的概念,然后利用该概念给出了两种选择性集成算法:CPM-EP和PMEP。CPM-EP和PMEP算法都利用覆盖模式挖掘思想和多数投票法原理来获取各种长度的候选子模式,然后都是利用贪婪策略来构造目标集成分类器。但是PMEP通过对原始事务数据库创建一棵FP-Tree,然后从FP-Tree中获取候选子模式,避免对事务数据库的频繁操作,从而节省了大量开销。实验结果表明,CPM-EP和PMEP算法的基分类器选择速度快,目标集成分类器规模小、预测能力强。就上述两种算法而言,PMEP在选择时间上优于CPM-EP。实验结果验证了模式挖掘思想是一种十分有效的选择性集成策略。4、提出以Bagging为基础的集成式增量学习方法。论文对EPIL模型中的基分类器构造方法进行研究,针对传统集成式增量学习方法对基分类器的结构适应性差,提出以Bagging为基础的集成式增量学习方法Bagging++,并提出一种基于Bagging的异构基分类器构造方法。实验结果表明,Bagging++具有很好的基分类器算法适应性,能够获得良好的预测能力,性能明显优于传统算法。此外,采用异构基分类器构造方法能够进一步提高集成式增量学习的预测性能。5、提出基于选择性集成的增量学习技术。论文对EPIL模型中利用选择性集成技术进行增量学习的具体方法进行研究,主要包括基分类选择的时机,校验样本集的确定等内容,然后针对Bagging++算法,提出基于局部选择的LP-Bagging++算法,以及局部与全局选择相结合的MP-Bagging++算法。实验结果表明,由于全局选择可剔除失效的基分类器,可有效控制目标集成分类器的规模,在保证预测能力的同时,显著提高了预测的时空效率。因此,局部与全局相结合的混合选择策略更适合当前在线学习的需求。6、设计并实现了集成学习开发平台LibEP。在前面研究结果的基础上,论文设计并实现了一个开源的集成学习开发平台LibEP。该平台涵盖的算法包括了集成学习研究的所有主要方面,包括样本操作方法、基分类器学习算法、集成学习算法、选择性集成算法、增量学习算法、性能评估算法等。LibEP平台的接口简单,易于使用,能够方便地集成到用户的程序中。该开发平台采用标准C++语言实现,运行性能高、可移植性好,功能易于扩展。本文从模型、算法和实验研究的角度,探讨了选择性集成与增量学习相结合的在线学习技术。而在下一步,通过将论文的研究内容与实际应用相结合,作者将致力于推动该项技术在需要高性能、高效率的机器学习应用领域中发挥出重要的作用。
其他文献
从线性非平衡态热力学的原理出发,应用Jander模型的假设条件,推导了如下模型来描述固相反应过程:k1[1-(1-α)1/3]+k2[1-(1-α)1/3]3=t.用该模型描述了La2O3和Co3O4粉末压片样品等
足球是一项受世界人民热爱的体育项目,而广大高中生也特别青睐足球运动,也在足球方面有着很高的热情。再加上足球运动可以显著提升高中生的体能水平,能够让他们在团体合作当
目的:探讨家庭互动类型与儿童自陈抑郁症状和应付方式的关系。方法:在本横断面研究设计中,采用随机整群取样方法,在南宁市区、郊区225所小学中随机抽取10所小学,对五、六年级的211
本文主要探讨了会计稳健性是否可以降低环境不确定性对债务融资成本的负面影响。结果显示,会计稳健性可以有效降低环境不确定性对债务融资成本的负向影响,具有调节性。
仿人机器人做为机器人领域的一个重要分支,近年来逐渐成为机器人研究领域的新宠,而当前仿人机器人的一个热点应用就是机器人足球比赛,它是一套人工智能、机器学习、通讯,自动
急性肝衰竭在急慢性肝病、肝肿瘤、外伤、肝脏手术后、中毒症、其他系统器官衰竭等疾病的过程中发生。急性肝衰竭若不及早诊断和救治,则治疗困难、预后较差。患有肝硬化、急
“多人角色游戏”全称为“大型多人在线角色扮演游戏”,以独特的交互叙事作为游戏设计元素,受到游戏玩家的广泛欢迎,在商业上获得巨大成功。本文的目的就是要对多人角色游戏
“文化大革命”期间,是知识青年上山下乡运动的高潮期。这段时间,又是知青工作深受极左路线影响的时期,是中国当代史不可忽视的历史现象之一。对其进行研究的重要性在于:一是
无粘结部分预应力混凝土梁(UPC)具有施工工艺简便、易于维护等优点,然而,受自身结构特点的限制,抗弯承载力较低,限制了其在工程中的应用。HRB500级钢筋是一种新牌号结构用钢,
采用丙烯酸正丁酯(nBA)与苯乙烯(St)为核层单体、氯乙烯(VC)为壳层单体,通过两步乳液聚合法合成了PnBA、P(nBA-co-St)和PSt三类具有窄粒径分布的共聚或均聚乳液,并以该乳液为