基于抽样的集成进化算法研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:ponsan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
集成学习是一种新的机器学习方式,它使用多个弱学习器来对同一个问题求解,能够显著地提高系统的泛化能力。因此,从20世纪90年代开始,对集成学习的研究及发展成为了一种趋势。经过众多学者的深入研究,集成学习已经成功应用于图像处理、Web信息挖掘、生物特征识别等多个领域。集成学习两大算法族:Boosting和Bagging目前存在的主要不足有:训练样本不够、集成规模大。本文主要进行了如下工作:1、提出一种限制输出模型规模的集成进化分类算法(Ensemble Evolve Classification Algorithm for Controlling the Size of Final Model, ECSM)。 Boosting算法族中比较知名的AdaBoost算法采用迭代机制,每一轮都产生一个精度较低的弱学习器,并更新训练样本的权重,使正确分类的样本权重减小,错分类样本的权重变大,最后采用加权投票集成输出模型。该算法经过多次迭代后会产生大量的弱学习器,模型规模过于庞大且不利于表达,因而不具备良好的可解释性。针对上述问题本文将遗传算法引入到AdaBoost算法当中,提出了ECSM算法。ECSM算法在训练过程中不再对样本进行累计赋值,而是从弱学习器入手,通过基因操作和评价函数找出每一轮最优的弱学习器,从而解决了最终模型规模过于庞大的问题。通过实验将该算法与传统的AdaBoost算法进行比较,验证了ECSM算法在保持分类精度的前提下,模型规模比AdaBoost的要小。2、提出基于一致性样本抽样的集成进化分类算法(Ensemble Evolve Classification Algorithm base on Consistency Sampling, EECS)。 ECSM算法可以在保持精度的前提下缩减模型规模,但对大样本数据的处理能力较弱,且在每一轮都需要进行全局搜索,导致模型建立时间较长。针对上述问题,本文设计了一个基于分类结果一致性计算公式,通过该公式计算出本轮的分类结果与之前分类结果的一致性值,然后用该值去更新训练样本的抽样概率,使得算法可以处理大样本数据,快速建立集成模型。在Weka下使用了5个UCI数据集对算法进行测试,实验结果表明,该算法在时间效率上明显优于ECSM算法。
其他文献
学位
网格计算实现了在广域网上对大量分散资源的虚拟化,但不能像虚拟机一样实现对单个计算系统的虚拟化。网格计算具有灵活性不够等不足,这是因为一些复杂的网格应用对软件和硬件
目前,射频IC卡应用系统的日渐成熟和各大学校园网的建成投入使用,为校园一卡通系统的建立提供了技术保障,校园内实现一卡通管理已成为校园管理发展的必然趋势。本文根据天津
随着全球市场软件需求的持续上升,软件外包已经成为中国软件出口及软件产业国际化的重要途径之一。我国的软件外包企业要获得快速发展,需要努力探索如何在确保产品质量的基础上
网格是一种分布式资源共享方式,它将地理上分布的计算资源、存储资源和信息资源等有机地连接起来,为用户提供统一、标准的网格服务。目前,数据库网格技术作为一种为大型、复
视频点播(Video-on-Demand,简称VoD)是以用户需求为主导的视频系统。如何提高视频点播系统的可扩展性和在动态环境中的可靠性,成为视频点播系统大规模应用的关键。传统的视频
在图形系统中,二维布尔运算是最为基础的运算之一,在CAD和几何实体造型中有着广泛的应用。现有的布尔运算在一般的情况下可以快速地得出正确结果,但如遇到奇异情况,则会产生
椭圆曲线密码体制的安全性建立在椭圆曲线离散对数问题的难解性上。同其它公钥密码体制相比,它具有安全性高、密钥短、所需资源少的特点,是目前最具潜力的一类公钥密码体制,
分布式视频编码(Distributed Video Coding, DVC)是以Slepian-Wolf理论与Wyner-Ziv (WZ)理论为基础的视频编码技术。相对于传统视频编码,分布式视频编码技术将编码端的复杂的
现代操作系统和软件变得越来越庞大和复杂,软件漏洞等缺陷也随之而来。攻击者往往会利用这些缺陷实现非法访问。一种快速而可靠的机制就是对这些攻击进行侦测,产生免疫防护措