【摘 要】
:
稀有类分类问题是数据挖掘与机器学习的一项难点任务,在典型的二元分类问题中,稀有类(或正类)的样本数远小于多数类(或负类)的样本数。传统的分类方法倾向于最小化训练误差,
论文部分内容阅读
稀有类分类问题是数据挖掘与机器学习的一项难点任务,在典型的二元分类问题中,稀有类(或正类)的样本数远小于多数类(或负类)的样本数。传统的分类方法倾向于最小化训练误差,这导致传统方法很难拟合稀有类样本集分布特征。解决该问题的一种常用方法是构建相对平衡的训练数据集,进而学习准确的分类模型。当前的研究(如EasyEnsemble)大多采用基于抽样技术构建这种平衡的训练集,如SMOTE、过抽样技术、欠抽样技术等。与以上方法相同的是,本文也试图构建相对平衡的训练数据集。但与以上方法不同的是,本文试图从数据划分的角度出发、并结合组合分类选择方法对稀有类问题做了深入研究。本文的主要贡献如下:(1)提出基于划分的组合学习策略(PBEL)。PBEL使用聚类方法把多数类实例集划分为多个簇、关联每个簇到一个新的类,进而构造相对平衡的训练数据集合以训练组合分类器。在预测时,PBEL使用多数投票方法预测实例类标号、将类标号映射到多数类或稀有类,以提高组合分类器在稀有类数据集合上的分类性能。(2)提出将组合选择方法应用到稀有类分类问题。在PBEL预测之前,本文将组合分类选择方法应用到PBEL构建的模型中,选择一组最优(或次优)的子组合分类器,以降低PBEL的规模并进一步提高它的分类性能。实验结果表明,组合分类方法或基于它的抽样方法能有效地提高算法在不平衡数据集上的分类性能。对于稀有类问题,论文提出的组合分类选择方法比其他方法具有更好的分类性能和泛化性能。
其他文献
无线传感器网络(WirelessSensorNetwork,WSN)是一种全新的信息获取和处理技术,广泛应用于军事、生态环境监测、交通管理、医疗健康监测、空间探测等领域,对人类的生活方式产
MQX是一款主要面向工业控制、汽车电子及消费电子等领域实时多任务应用的嵌入式实时操作系统。2009年,飞思卡尔公司半导体公司开始免费开放MQX3.0.1版源代码,同年,苏州大学飞思
人群动画合成研究始于上世纪80年代初,至今已取得了较大的发展,并在影视制作、视频游戏、军事仿真、公共安全等诸多领域得到了成功应用。随着以GPU为代表的计算机硬件性能的快
随着科技的不断发展和进步,计算机网络也逐渐成为了人们生活中不可缺少的部分。然而计算机网络却是危机四伏的,每天都有成千上万次的网络攻击事件发生,同时新的攻击手法也是
随着计算机网络以及流媒体技术的迅猛发展,视频压缩技术也跟着受到与日俱增的重视,各种视频标准成为了当今的研究热点。H.264视频编码标准是当今最流行的国际标准,在原有的H
传统的流媒体架构在可扩展性、成本控制、部署难易程度等方面存在诸多问题,限制了大规模流媒体应用的部署。对等网络(Peer-to-Peer, P2P)与流媒体技术相结合,产生了P2P流媒体
如今这个技术时代每分每秒都在产生大量数据,对PB、EB甚至ZB的存储需求并不难见,数据的量级也在不断突破我们的想象。个人或企业搭建属于自己的私有云存储服务需要巨大的前期投入以及后期维护成本,而公有云存储服务更加符合目前大部分个人和中小型企业的需求。公有云存储服务的使用者只需要向服务提供商支付少量费用即可获得高度可靠性、鲁棒性和扩展性的云存储服务。目前,许多公司提供的云存储服务需要用户提前支付费用以
教育观念的提升,学习方法的多样化,使社会对教学模式的需求大大提高。而计算机网络发展迅猛,即时通讯技术日新月异,又为多媒体远程教育系统奠定了技术和理论基础。网络白板,
IB(Information Bottleneck)方法起源于率失真理论,是一种有效解决复杂优化问题中数据压缩和信息保存的方法学。在机器学习领域中,IB方法多用于模式提取,并形成了多个版本的I
随着计算机通信网络、流媒体和压缩等技术的发展和应用,数字内容服务己成为软件产业乃至整个信息产业中发展最快、最具市场前景的领域。但是数字内容很容易就被复制、篡改和