分类器优化算法的研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:sky_ywt_2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国际互联网的发展和大规模存储的普遍应用,数据挖掘作为对数据进行分析理解应用的科学,越来越受到重视.数据分类是数据挖掘的一个重要研究领域.近年来数据分类的理论研究和实际应用都获得了长足的进步,陆续出现了许多实用的分类模型和实现算法.在分类研究领域,组合分类器的优化方法逐渐变得引人注目.组合分类器的代表算法有Bagging,AdaBoost和Arcing.三者算法新颖,绩效突出,引起研究者的广泛重视.对它们进行分析和比较对实际应用的推广具有重要意义.该文在分类错误率、合并规模和算法相关度等方面对三个算法进行综合对比,获得了许多对实际应用具有指导意义的结果.Bagging算法分类样本形式简单,对底层分类模型没有特殊要求,适用范围广,其单个分类器的产生是独立的,易于并行处理.其循环步长优化设置为15左右.AdaBoost和Arcing属于Booting算法,单个分类器的产生有顺序依赖关系.由于采用了适应性权重,两者的优化效果好于Bagging.AdaBoost算法形式复杂,理论基础深厚.Arcing方法权重更新模式简洁清晰.与AdaBoost相比,两者分类准确度接近,而AdaBoost更适用于大规模数据庥,Arcing则在相对较小的数据集上表现出色.两者的迭代步长优化设置为25左右.除此分析比较以外,该文提出一种基于适应性权重和限制目标类权重扩张的AdaBoost改进算法.它通过避免在目标类别上发生权重扭曲,有效地解决了在个别数据集上发生的退化问题.针对目标类的权重限制设置,该文提出了两种参考设置方式.平等对待方式适用于中小规模的数据集,而目标类样本数比例限制则对大规模数据集有一定的优势.叠加方法和遗传算法是另外两种分类器的优化方法,它们不属于一般的组合优化的范畴,但因其特点突出,该文在其实现和应用方面也进行了讨论了,提出一些有价值的建议.
其他文献
据统计,一个组织的数据量每5年翻一番,如何管理这些庞杂的数据并使之用于决策支持就成为每个组织的迫切要求。数据仓库(Data Warehouse)技术就是在这样的要求下产生并发展起来
随着Internet的发展和电子技术的不断进步,人们将Internet的触角伸向了工业控制领域,Internet进入“嵌入式Internet”时代。利用MCU实现嵌入式Internet方案的技术难点在于如何
该课题的开发旨在充分利用中、小规模高校现有的软、硬件条件和网络资源,在没有太多投资的情况下,建立起一个基于Internet的科研管理系统.该文的主要特点表现在:1.针对中、小
随着Internet的迅速普及,挖掘分布的数据已经成为数据挖掘领域面临的一个主要挑战。由于节点是物理分布的,处理的是海量数据,同时还要兼顾数据的安全性以及非共享数据的隐私性,分
Web服务器集群系统已经成为当今Web站点普遍采用的服务器体系结构,伴随着大量重要业务向Web服务方式的迁移,提高和保证Web集群服务的安全性变得至关重要。 本文深入研究了We
伴随着计算机技术和信息全球化的高速发展,我们迎来了大数据时代,人们面临着从数据中获取有用信息以支持更好的决策和发展。面对着源源不断产生的大量的流数据,如何从流数据中获
该文分析了彩色喷墨绘图机的工作原理以及组成结构,并在此基础上详细的论述了绘图机喷绘控制器中喷头小车驱动以及走纸步进电机的驱动电路设计.其中重点讲述了喷头小车的直流
随着因特网的发展和对流媒体及视频等增值业务的需求,IP组播技术应运而生。IP组播是面向组接收者的有效数据通信方式,利用一种协议将IP数据包从一个源传送到多个目的地,将信
随着网络技术的发展,为了保证网络能够有效、可靠、安全、经济地提供服务,网络管理越来越重要。 传统的网络管理采用的是集中式管理,由管理者利用轮询机制,对被管理者发布管理
本文的研究目标是为了在ERP系统的库存管理模块中解决并实现批量出库问题。针对现存ERP系统中的库存处理方式与实际的生产应用进行比较,对实际生产中的批量出库着重进行了研究