基于非平衡数据的适应性采样集成分类器的研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:zf524979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在每天都有大量数据需要提取和分析,数据挖掘技术在许多实际应用中获得巨大成功,分类模型已经在许多应用场合得到广泛应用,如原油泄漏检测、信用卡检测、医疗检测等等。由于这个课题的重要性,许多研究者开展了许多卓有成效的工作。本论文的研究总体目标是探讨一种分类方法用于提高非平衡数据集结构的分类器的准确率。非平衡数据集指的是某一类别的样本数多于其他类别的样本数。传统机器学习对这些类型的数据比较敏感,往往倾向于重视占主导地位的高频样本而忽视低频样本。为极少类样本的数据集生成的模型仅得到对这些类别样本较低的分类准确率。然而,在许多情形下,这个类别可能是人们最感兴趣的。例如:信用卡诈骗的误判可能导致银行声誉的毁灭,业务的流失以及客户的不满意。然而,一个欺诈交易的错误分类往往只需要一个呼叫客户端。同样,在原油泄漏检测中,一个未被发现的裂口将导致几千美元的损失。训练数据集的分类的改变,可以改变多数类和少数类的错误分布。这个非平衡问题是一个相对问题,依赖于:类的不平衡度,数据所表示的复杂性以及集合和类的总体规模。为了处理这个问题,已经提出了许多方法。这些方法被分为数据层和分析层。数据层对少数类进行处理,最常见的方法是过采样和欠采样。欠采样将导致少数类的信息的丢失,而且是在进行分类时不允许删除一些样本。随机的过采样使研究者选择的范围更小更专业,因此可能过度拟合。对于可选择的过采样,Chawla et al提出一种叫做Smote的方法来合成少数类的样本。Smote的优点在于它使研究者的选择范围更小更专业。Chawla et al提出了一种更先进的SmoteBoost方法,给出一系列的迭代T环,每一个迭代T环,Dt是时时更新的。因此少数类的过采样样本是通过合成少数类的样本得到的。Databoost-IM是由Guo和Viktor提出的Adaboost.M2的修改版,它鉴别原有的本并为多数类和少数类合成样本。算法层面上的这些方法操纵的是算法,而不是数据集。最常见的集成算法是Bagging算法和Adaboost算法,它们提高了分类性能,它们是综合了其它方法的例子,对模型进行整合的方法,Bagging是由Leo Breiman在1994年提出的,通过将随机生成的训练数据集的分类整合起来Boosting是训练“弱”学习者的一种机制,通过综合由“弱”学习者的假设得到总体假设,它有很高的正确率。Adaboost是由Freund和Schapire提高了随机分类样本的权重,降低了均衡分类的比例,在不考虑非平衡数据集的情况下,传统的Boosting方法不能很好的适用于少数类的情况。根据Sun et al的成本敏感分类方法,考虑到不同类型的分类会需要不同的成本。一个分类的成本矩阵编码反映了这个分类方法的好坏。为了处理非平衡数据集问题,正面样本的识别重要性比负面的要高。因此,非平衡分类中,正面样本的成本要比负面样本的成本更加重要。为了处理这个问题,文中提出一种集成算法,该算法建立了包含所有少数类和欠采样多数类的新平衡训练集。在每轮迭代中,算法确认在多数类上的原来样本并为下一次迭代生成合成样本。实验中为每个训练集设置弱学习器作为基分类器。最后的预测结果通过多数投票方法获得。E-AdSampling适合用来处理不平衡数据集,因为:首先,平衡每一个要训练的数据,然后,处理多数类的欠采样的信息丢失,通过寻找原有的样本并且为这些样本创建新的合成样本,最后,通过汇总所有的分类,创建一种集成算法。E-AdSampling是从UCI数据集中选取六个数据集进行评测的,并分别与其他已知算法进行了比较,评价指标有F度量、G平均值、总体准确率、AUC等。和一种传统的机器学习算法相比,我们介绍两种合成算法和两种成本敏感算法。Weka 3.6.0中的C4.5树被用来作基分类器,AdatabostM1,Bagging, Adacost, CSB2,和E-AdSampling分别集成了10种迭代法。除了Adult和Monk2,它们不但提供测试数据集,而且运用10倍的交叉验证。在衡量TP率方面,对比无成本损失算法,E-AdSampling算法在少数类预测中减少了错误。例如Hepatitis数据集,C4.5和:E-AdSampling的差别表明,13个错误的归类(归类于少数类)是错误的,它们不能归类于少数类。根据少数类的F度量指标,与成本敏感算法和非成本敏感算法相比,E-Adsampling算法的进步是很明显的。G平均值被认为是处理不平衡数据集的最重要评价指标,E-AdSampling方法,在几乎所有的数据集中,能得到最高的G平均值;除了Adult和Ozone方法,一些成本敏感算法能得到更好的结果。E-AdSampling算法在处理少数类时,计算TP率和F度量上能得到好的结果,能够保持恒定或有轻微的上升,并且能够保证整体正确率。然而,有一些成本敏感算法在计算TP率时能得到更好的结果,在处理多数类和少数类时,E-AdSampling算法通过得到好的F度量指标从而得到得到更好的结果,在任何情况下都能保证正确率。每一个数据集的ROC曲线图形化地表明了E-AdSampling的结果。●F-Measure方法在任何数据集上处理少数类时最好的●F-measure在处理多数类时,4个到6个数据集时是最好的●G平均值方法在处理4个到6个数据集时是最好的●AUC在处理4个到6个数据集时是最好的●整体正确率在处理4到6个数据集时能得到最好的值这些结果证明了之前提到的算法的有效性。为了提高E-AdSampling方法,自动地集合邻近数据用来合成样本是很有必要的,并且合成样本的百分比是根据数据集得到的,运用E-AdSampling方法来提高数据集的不平衡(达到1:10000或者更多)是不是一个很好的方法?使用更多的类实施这种方法是否有必要?为了提高计算速率,为多数类采用另外一种欠采样技术会不会更好?这些问题都是未来需进一步要探讨的问题,在测量准确率方面,用成本曲线将是一种很好的办法。
其他文献
DNA微阵列技术是生物信息学中一项很重要的技术,它能够同时监控成千上万个基因的表达值。通过分析DNA微阵列的数据集,生物学家能够得到非常有用的信息用于基因预测和基因调控
计算机技术的发展使得医疗模式不再复杂,慢慢走向分子医疗和信息化医疗阶段:首先现代医疗模式利用分子生物技术、DNA测序技术对人体进行DNA测序,接下来将得到的结果与人类标
现实世界中的许多复杂系统,如互联网、物联网、食物链网、神经网络以及社会网络等,都可以描述成由节点集通过边连接构成的复杂网络。社区发现作为复杂网络的一项重要研究内容吸
网络给我们的生活、工作和学习等方面带来了巨大的便利,同时网络也存在各种各样的风险,它是一把双刃剑。随着互联网的发展,它的开放性、共享性和互联程度越来越大,网络的重要
随着物联网时代的到来,人们对网络服务质量的要求会越来越高,不仅仅是对网络传输速度的要求高,同时对于网络的传输性能也提出了更高的要求。影响网络传输性能的重要因素之一
RF-SIM(RFID-Subscriber Identification Module)卡是基于无线射频技术,可实现近距离无线通信的手机智能卡,可用于移动设备、消费类电子产品、PC和智能控件工具等设备。中国
网络安全问题的凸显,使个人防火墙成为保护主机安全的主要手段,目前国内外学者都对智能化的个人防火墙进行了不同层次的研究,信息筛选技术作为最成熟的防火墙技术在防火墙的
随着web2.0时代的到来和社交媒体的广泛兴起,短文本出现在互联网的各个角落。信息检索,广告关键字,网页标题,锚文本,在线问题,微博以及评论等信息都属于短文本。短文本更新速
本课题来源于山东丝绸纺织职业学院在引进知识管理方法、并建设相应的信息化系统过程中的实践探索。知识管理(KM, Knowledge Management)是网络新经济时代的新兴管理思潮与方法,管理学者彼得·德鲁克早在一九六五年即预言:“知识将取代土地、劳动、资本与机器设备,成为最重要的生产因素”,“21世纪的组织,最有价值的资产是组织内的知识工作者和他们的生产力”。在信息时代里,知识已成为最主要的财
人工神经网络在一定程度上受到生物学的启发,是自然界生物神经网络的一种近似和模拟。其主要从两个方面进行模拟:一种从结构和实现机制方面进行模拟,即人工神经网络结构模拟生物