失衡样本分类问题的自动过滤算法的研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zyqtc1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
失衡样本,即不平衡的数据集,是指在一个数据集中不同类样本的数量相差悬殊。研究表明不平衡数据集严重影响了很多传统机器学习算法的分类性能,特别是少数类的分类性能可能很差。同时,不平衡数据集还导致训练分类器的速度过慢。然而在现实世界中,许多数据集都是不平衡的,甚至不平衡的程度很严重:有些数据集中只有3%-5%的少数类样本,例如多媒体语义分类,信息检索,医疗检测等。此外,人们通常更关心数据集中的少数类样本,例如信息检索中与关键字相关的文档总是占很少数,所以人们更希望少数类有很好的分类性能。由于传统的机器学习分类算法不能满足在现实中的分类应用性能良好,因此失衡样本问题迫切需要得到解决。为了解决失衡样本所带来的以上问题,本文首先提出了过滤数据集中的样本以平衡数据集的思想。这个思想希望通过过滤失衡样本中的对分类没有帮助的多数类样本,从而拉小两类样本数量的差异,使数据集平衡并提高机器学习算法的效果。为了实现这个思想,本文又提出了一个新颖的过滤规则提取算法。该算法自动从失衡的训练集中提取规则,这些规则能有效的去除样本空间中远离分类边界的没有用的多数类,尽量保留少数类,最后使得数据集平衡。在实验中,首先提取过滤规则,之后使用提取的规则过滤失衡数据集,最后用SVM对过滤后的训练集训练分类器。此外,本文还将该思想和算法应用于自动提取新闻图片中。从实验结果可以看出:1)本文提出的过滤样本平衡数据集的方法是可行的、有效的。2)自动规则提取算法提取出的规则能有效的过滤失衡样本中无用的多数类,几乎不过滤少数类,最后达到平衡数据集的效果3)不平衡数据集使用规则过滤后,再使用SVM进行分类,能提高其分类性能,同时明显降低训练分类器的时间。4)实验还证明了使用规则过滤后分类数据集比代价敏感学习方法无论在分类性能还是在训练时间上都更具优越性。5)最后,实验显示,本文提出的过滤规则提取算法能在自动提取新闻图片的应用中使用并得到好的性能。
其他文献
稀疏移动自组网是一种不需要源节点与目标节点存在路径,利用节点的移动带来的相遇机会实现数据传输的自组织网络。由于节点对网络信息知之甚少,为了提高传输成功率,传统的路
随着计算机网络的发展,Web应用变得丰富多彩。相应地,越来越多的人们通过博客、空间及微博等网络文本“对话”的形式来进行个人情感的表达和生活需求、兴趣的交流。   情感
互联网的飞速发展极大方便了人们的学习、工作和生活,但同时也使我们面临着信息爆炸,却知识匮乏的窘迫。如何从海量信息中快速、准确的寻找所需要的信息,已经成为了人们的迫切需
随着计算机技术的快速发展,财政的信息化水平也飞速提高,财税各个业务系统数据日益累积,如何有效对财税数据进行整合与分析,有效提高数据的利用率,充分实现数据价值,是财税数
随着网络技术和信息技术的迅速发展,计算机网络在诸多领域内的应用日益普及,然而由于其运行环境具有开放性,使得计算机网络在给人们带来巨大便利的同时,也产生一系列的安全问
图像拼接技术在各领域都得到广泛关注和应用。在纸质文档数字化的过程中需要得到大幅面高分辨率的文档图像,如新闻报纸,而一般普通的摄像头虽然具有廉价、非接触、成像快速等
混沌运动是非常复杂且类随机的一种非线性运动。其广泛存在于自然界和人们的生产生活中。混沌运动通常是有害的,需要对其进行控制。因而,其既有学术价值,又有实际意义。最近二十
随着无线技术的快速发展,人们已经在越来越多的方面享受到了无线通信带来的各种方便,无线应用的急速增多也使得对无线频谱资源的需求量也越来越来大。但是由于大多数频谱资源
P2P技术在网络的快速发展与普及中已成为信息交换的一种主要方式。它是一种基于分布式计算的新型网络架构模型,其设计的主要目标就是在个体之间以直接通信方式来交换信息资源
随着计算机和网络的快速发展,软件系统规模日益增大、使用环境日益复杂,使得软件系统表现出越来越复杂的特性。将软件系统建模为一种复杂网络,从数据挖掘的角度出发,发现软件