分类器集成研究

被引量 : 0次 | 上传用户:CYQWWL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是机器学习领域四个主要研究方向之一,集成是指构建一个分类器的集合,并通过基分类器预测进行(权重)投票给出新数据的分类结果。集成学习在实际问题解决上已得到了广范的应用。集成学习最早被用来提高模型性能,或者减小选择到一个差分类器的可能性。集成学习其他的应用还包括赋予决策判决以置信度、选择优化特征、数据融合、增量学习、不稳定学习和纠错。尽管集成学习还缺乏一个统一的理论框架,但关于对多个分类器的集成仍然产生了很多相关的理论,并且有许多试验也证明了这种方式的有效性。本文主要研究了以下问题:集成学习标签设计、集成误差分析、快速选择性集成,基于集成的噪声检测,聚类分割模型空间,基于ACS (Adaptive Clustering Sampling)的集成学习和基于选择性集成的增量追踪技术。(一)证明了在n维空间总可以构造出n+1个对称矢量,并以此为基础提出了矢量标签的概念,基于矢量标签实现了多数投票法和平均法的统一,这一特点使得用于解决二分类问题的集成学习算法都可以自动升级为多分类算法。对Korgh 1995年关于集成学习的误差分析理论作了进一步深入,从实验和理论上说明了集成学习的性能除了取决于基分类器之间的差异度,同时不能忽视基分类器个体的性能。实验证明增大基分类器规模和提高基分类器性能可以明显提高选择性集成的性能。并相应设计了排序Bagging (Bootstrap aggregating)算法和随机化Bagging算法,这两种算法只需增加很小的附加运算量就可以在某些数据集上提升Bagging算法的性能。(二)打破原有选择性集成算法只考虑差异度的思路,提出从同质化的角度研究选择性集成。设计算法,分别从同质化角度以及同质化结合差异化角度进行选择性集成,在个别数据集上其性能接近和超过GASEN (Genetic Algorithm Selective ENsemble)算法。提出层次化修剪技术,解决了大规模基分类器的选择性集成问题,以此为基础进一步提出了快速选择性集成算法。该算法选择性集成速度较GASEN和CLU_ENN (CLUstering Ensembles of Neural Network)要快得多。并且该算法具备并行处理能力,在目前并行计算已非常廉价的前提下具有较强的应用价值。(三)提出了基于聚类和Boosting的Bagging修剪算法,进一步提出了基于聚类选择的AdaBoost (Adaptive Boost)加速算法,这两种算法在基分类器集合规模较大时性能都可以接近AdaBoost算法,同时训练时间要少一个数量级。基于Boosting检测噪声试验,提出了“伪噪声”概念,并分析了在噪声剔除过程中各类误删和漏删情况以及相应的后果。进而提出基于Cascade的噪声删除策略和弱Boosting算法来增强对噪声的检测能力。最后结合K-NN算法、Boosting算法和Cascade技术提出了全新的噪声删除算法,性能优异,且速度明显快于AdaBoost。(四)基于“分而治之”和“拼贴”思想分析集成学习,以此为基础提出了使用聚类分割数据模型空间的思想,并说明此时的聚类与传统聚类两者的异同。基于“分而治之”以及对Bootstrap技术和AdaBoost技术的分析,引入ACS采样技术,并对其作适当调整以适应机器学习。使得弱分类器不再是进行盲目学习而是能够进行有目的学习,也即通过ACS采样技术,结合矢量标签我们可以控制弱分类器的学习行为。进一步提出了ACS-Randomization算法,该算法仅通过调节参数就可以实现Bagging, Randomization, Random-Bagging等算法。通过调节参数,可以使得该算法可以在不同类型的数据集上都获得较为理想的效果,也即可以针对不同类型数据集调节相应的学习强度和噪声抑制能力。该算法的试验还说明了噪声抑制和学习能力之间是一种难以调和的关系。(五)从机器学习的角度分析并提出跟踪任务的本质是增量学习。使用选择性集成技术来实现对目标跟踪的增量学习,同时完成噪声检测与剔除。根据跟踪任务的特点,提出了背景预测技术。并在跟踪任务中使用了HSV颜色空间模型下Walsh局部纹理特征提取,取得了理想的效果。
其他文献
西藏的学校教育近年来迅速发展,入学率和教育质量都有很大提高。但是,西藏农牧区中、小学校的辍学率仍然较高,中学的情况更为突出。不少学生因不愿意读书而选择逃学,使学校面
当今经济全球化时代,跨国公司己成为全球经济发展和科技进步的领导者。为了占领东道国市场,获得最大利润,在华跨国公司纷纷采取本土化战略。跨国公司的本土化战略包括生产本
金融业的特殊性质使得上至银行行长,下至银行普通职员,都可以接触巨额资金,都有产生腐败的可能。文献回顾发现:在“纯”腐败及金融腐败的研究中,腐败的分类没有得到足够的重视
空间结构研究是旅游地理与旅游规划学当中非常重要的一个研究方向,旅游地的空间关系与结构直接影响了该地的旅游格局。而景区是旅游活动最关键的载体,是旅游活动能够形成的基
随着社会经济的发展,人们对供电可靠性的要求越来越高,配电自动化系统是电力系统发展的必然趋势。配电网故障定位、隔离与网络重构是其核心功能之一,对提高供电可靠性和电能
AlN陶瓷因为具有高的热导率,低的介电常数,与Si相匹配的热膨胀系数,良好的绝缘性,热化学稳定性好,无毒等优点,成为高密度集成电路基板材料的最佳选择。然而AlN属于共价化合物
目的:总结非体外循环下冠状动脉搭桥术的护理体会.方法:护理非体外循环下冠状动脉搭桥术患者132例,围术期积极护理,及时发现问题和有效处理.结果:全组患者康复出院.结论:术前充分
近年来,我国互联网快速发展,网络成为人们交流信息、传播舆情的重要渠道,基于网络而发生的群体性事件也开始出现。从现实来看,目前我国网络群体性事件处于数量不断增多的暴发
在社会发展日益深入、产品竞争日趋激烈的今天,提升客户服务质量已经成为IT企业的当务之急。只有提升客户服务质量,才能赢得客户、赢得市场,使企业在艰难时期保全下来,在太平
本文以实践和调查为基础,在阐述课程重要性的前提下,从教学内容和教学形式、评价方式两方面,重点探讨了研究性教学在“烹饪器械及设备”课程中的实施,为课程建设及研究性教学