基于机器学习和过采样方法的不平衡数据分类研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:InsidedotNET
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据的分类问题一直是机器学习与数据挖掘的共同课题。在传统的学习过程中,分类器大多在不平衡比例接近1的数据集上进行分类研究。然而在实际应用中,数据集的不平衡比例往往较大,分类器为了降低判别损失率,在分类过程中就会偏向多数类样本,从而影响分类结果。随着研究的不断深入,许多针对不平衡数据的算法被提出,有效降低了数据不平衡性对分类器性能的影响。本文从数据层面的算法入手,对不平衡数据的分类问题进行研究与改进,主要工作如下:(1)针对噪声样本会影响分类效果和合成少数类过采样算法(Synthetic Minority Oversampling Technique,SMOTE)抗噪能力较差等问题,提出了降噪过采样算法。该算法首先从样本位置与近邻信息两方面考量噪声样本,对少数类进行噪声滤除,之后引入K-Means++算法,从聚类中心出发合成少数类样本,获得类间平衡的训练集,最后对该训练集进行训练。通过在21个KEEL不平衡二分类数据集上进行实验,分别使用支持向量机(Support Vector Machine,SVM)和多层感知机(Multilayer Perceptron,MLP)分类器进行分类,将改进算法与SMOTE以及已有的一些过采样方法进行效果对比。实验结果表明,降噪过采样算法不仅有一定的抗噪能力,还能够提升分类器的整体分类效果。(2)针对基于径向基的过采样算法(Radial-Based oversampling,RBO)在合成样本时易合成重复样本的问题,引入Levy飞行原理,提出基于Levy飞行改进的径向基过采样算法(Levy Flight and Radial-Based oversampling,LRBO)。实验基于21个不平衡数据集,将LRBO与无过采样方法、RBO算法以及一些已有的过采样算法进行采样效果与分类效果对比,对采样效果图及各个分类评价指标进行分析。实验结果表明,在二分类不平衡数据集的分类问题中,过采样技术能够提高分类器对少数类样本的偏向;相较于RBO,在使用SVM和MLP分类时,平均F-score值分别提升了1.3和7.7个百分点,G-mean值分别提升4.8和5.6个百分点,AUC值分别提升2.2和2.4个百分点,说明LRBO能提升分类器的少数类样本分类准确率以及整体分类效果。(3)针对多类不平衡数据的分类问题,提出基于Levy飞行与径向基的多分类过采样算法(MC-LLRBO)。该算法将LRBO扩展到多分类问题研究中,并引入线性判别分析降维算法(Linear Discriminant Analysis,LDA),提高过采样效率。实验基于16个KEEL多分类不平衡数据集,将本文算法与MC-RBO以及一些具有代表性的过采样方法进行效果对比,对实验数据进行分析,来证明改进算法的有效性。实验结果表明,与其他过采样算法相比,MC-LLRBO能够降低分类器将某一类少数类样本全部错分的概率;在使用SVM和MLP分类时,平均m AUC比MC-RBO分别提高了12.9和1.5个百分点,说明MC-LLRBO能提升分类器的平均分类能力。
其他文献
非婚同居现象在我国已经显露出不断攀升的发展趋势,非婚同居人数的增长,同居关系持续时间的增加,使得非婚同居者渐渐成为了一个新兴的群体。我国传统道德观念认为,家庭法中唯一合法存在的两性结合形式是婚姻,其他结合形式都是不符合家庭本质的,但随着两性关系的多元化,家庭结合形式的多样化,不管从法理的角度还是社会实践的角度,非婚同居关系都被证实是符合时代发展趋势,具有构建制度的正当性基础。我国家庭伦理道德的转变
随着数字化技术的飞速发展,生活方式和教育理念正在发生转变。许多国家、地区和国际组织迫切的需要21世纪人才,纷纷致力于人才的培养,并提出了不同的21世纪能力框架,其中,协作能力是所有框架中都提到的21世纪人才所必备的能力之一。协作学习作为以学为主的学习形式的典型代表,被认为是一种有利于培养学生高级认知目标和协作能力的新型教学模式,受到了越来越多研究者和学者的持续关注。如今,有关协作学习的研究已经日臻
随着深度学习的高速发展,越来越多的跨领域学科正在相互结合以便更有效的解决存在的问题,利用深度学习方法的医学影像技术在医学诊断中有着不可或缺的作用。其中医学图像分割作为医学影像技术的一个重要研究方向,对病理分析、临床诊断和后期手术方案的制订起着重要意义。其中人体腹部CT影像是腹部器官疾病的诊断依据,而肝脏作为腹部最大的器官,对人类的生命健康起了至关重要的作用,肝脏功能的异常与很多疾病有着密切的联系,
近年来,“平面设计”的命名变更为“视觉传达设计”,意味着学科的发展不局限于视觉的形式和承载的媒介,转向更注重传达本身。这是由于在信息爆炸时代下信息传播的渠道和方式发生了变化,传统视觉识别已经逐渐难以满足大众的生理和心理需求。这需要设计师积极探索新的视觉识别形式,而科学技术的进步也为视觉识别设计的革新制造了机会,将其推向了创新驱动、技术助力的新局面。生成艺术是通过计算机代码生成艺术作品的创作形式,它
特定目标情感分类是自然语言处理的重要研究方向之一,其旨在准确判别句子中目标实体的情感极性,由于目标实体的情感极性依赖于句子上下文语境中某些表达目标情感的情感特征词,通过挖掘目标实体与句子上下文的语义情感联系,从而找到与目标实体相关的情感特征词;虽然特定目标情感分类模型在过去的几十年研究中已经有了极大的发展,但仍存在无法充分挖掘目标实体与情感特征词的关联,以及准确判别包含多个目标的句子中的目标情感极
将同一个场景下的不同模态传感器得到的图像进行融合,得到一张包含多源信息的融合图像,此类任务称为图像融合任务。其中红外图像与可见光图像融合是一个重要的课题。红外图像可以根据热辐射的差异将目标与背景区分开来,在白天或者黑夜的所有时间和各种天气条件下,红外图像都能很好地发挥作用。相反,可见光图像可以以与人类视觉系统一致的方式提供具有高空间分辨率和清晰度的纹理细节。图像融合领域如今已经有了大量成熟的方法,
在一些化工间歇如注塑机注塑速度控制过程中,通常需要在有限的运行时间内执行一些重复性操作,近年来如何利用系统重复运行的信息改善系统性能的控制问题引起了广泛关注。迭代学习控制是有效解决此类控制问题的方法之一,其关键思想是通过先前批次的误差信息不断优化控制输入从而实现高精度跟踪的控制目的。针对实际生产中常见的状态时滞系统,本文进一步考虑系统运行中存在的不确定性对跟踪性能的影响,通过建立状态时滞不确定模型
在智慧博物馆建设的背景下,物联网、大数据、云计算、移动互联网和人工智能技术为博物馆文化资源的开发、传播、保护和管理提供了技术支持和更多的方法。博物馆不仅承担着文化展示的作用,也发挥着对观众的教育职能,以丰富的馆藏文化资源和开放式的展示环境,对儿童教育起到了举足轻重的作用。特别是博物馆多样化的教育形式、内容和展示方式,带给儿童在多维视角上的文化认识和文化体验方式的变化。本文从体验设计的角度,探索如何
随着机动车日益增加,环境污染、交通拥堵、交通事故是当今乃至以后世界各国发展路上所需要面临的难题。作为解决此难题的重要方法之一,智能交通系统登上了历史的舞台。作为智能交通系统的重要研究内容,多自主车辆队列的优点在于可以有效降低油耗、提升乘客的乘坐体验、增加道路通行量等,这些优点让多自主车辆队列正逐渐成为控制领域及交通领域的研究热点。其目的是在保证安全的前提下,通过车载传感器、车与车通信以及控制算法让
民族服饰折射一个民族的文化,同时也是宝贵的文化遗产。满族的民族服饰文化极具民族色彩,有着很高的文化价值。对于这些传统工艺美术资源,如何能够挖掘其文化内涵并进行保护与传承,并在当代语境及社会背景下重新焕发出生命力,从而让更多人真正了解和喜爱优秀传统文化,是值得深入探究的课题。在本文的研究中以满族服饰的装饰语言作为研究中心,同时进行文献研读与实地调研,以其做为研究基础,灵活运用历史资料研究法、文献剖析