基于构造性覆盖的不平衡数据欠采样分类方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:ciha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,机器学习分类已广泛应用于日常生活的多个领域。分类算法通过对已有的数据进行分析并且建立模型,从而对未知数据进行预测。目前,已经有了很多成熟的分类算法,比如支持向量机、决策树、神经网络等,这些算法大多是针对平衡数据集而设计的。但是,在实际应用中,数据集大多都是不平衡的。这些分类算法在对不平衡数据进行分类时,往往比较注重数据集整体的分类准确率,而少数类样本的分类准确率比较容易被忽略。如何在保证不平衡数据整体分类准确率的同时,提高少数类样本的分类准确率是亟待解决的问题。当前对不平衡数据分类的研究方法主要从数据集和算法的层面考虑。在数据集的层面,过采样方法通过增加样本信息来提升不平衡数据的分类准确率,欠采样方法通过删除多数类样本来加强分类算法对少数类样本的关注。大量研究表明,这些方法都可以在一定条件下提高少数类样本的分类精度,但都存在对不平衡数据集中的样本分布考虑不足的问题。鉴于此,本文从数据集层面考虑,对如何利用样本的空间分布信息来提升不平衡数据的分类性能进行研究,主要研究内容总结如下:(1)提出了基于构造性覆盖(Constructive Covering Algorithm,CCA)的数据清洗方法(SMOTE+CCA)。首先使用合成少数类过采样技术(Synthetic minority oversampling technique,SMOTE)对不平衡数据集进行过采样处理,然后借助CCA挖掘容易被误分类的样本,最后提出一种成对删除策略对SMOTE采样后生成的平衡数据集进行数据清洗。该方法对SMOTE进行改进,挖掘并删除数据集中的重叠和噪声样本,降低数据集的复杂程度,达到提升分类精度的目的。最后通过实验验证该方法的有效性。(2)提出了基于构造性覆盖的欠采样方法(Spatial Distribution-based Imbalanced Undersampling,SDUS)。首先使用CCA挖掘样本的空间分布信息,形成多个空间邻域,在此基础上提出两种样本选择策略(基于多样性的方法SDUS1和基于余弦相似度的方法SDUS2)。SDUS1使用加权随机采样的方法,在每一个多数类的空间邻域中挑选样本。SDUS2基于余弦相似度计算样本之间的相似性,将每一个空间邻域划分成四个部分,根据四个部分中样本的密度选择样本。最后结合集成学习技术对采样之后的数据集进行训练,并通过实验验证该方法的有效性。
其他文献
显著目标检测旨在利用智能机器设备模拟生物的视觉感知系统,从而能够从图片中找到显著的区域。显著目标检测早期以研究RGB图片为主,随着Kinect等捕捉设备的普及,借助于RGB-D图片中的深度信息来进行显著目标检测是该领域未来的主要发展方向。许多学者利用人工提取的RGB和深度信息计算得到低水平特征的方案虽已取得很大成绩,但随着卷积神经网络的广泛性和流行性,最近涌现出了大量基于深度网络的效果更好的显著目
工程项目合作团队内的知识转移是指项目各参建单位通过多种渠道将自身拥有的项目相关知识传递给团队中其他个人或组织,并实现知识的吸收、利用和创新。已有研究表明,有效的工程项目知识转移对于项目绩效和企业竞争力具有正向影响,因此如何促进工程项目合作团队的知识转移成为项目管理领域的重要问题。工程项目合作团队是一个具有相互依存、激励、补充、制约关系的动态系统,并且项目合作团队成员与项目环境、项目知识之间的动态关
随着互联网技术的不断发展,网络上每天产生的数据量呈现爆炸式增长,从海量的数据中挖掘出对用户有价值的信息变得也越来越困难。传统的搜索引擎已经无法满足用户的个性化需求,而推荐系统作为一种可以在海量的数据中根据用户的偏好挖掘出用户感兴趣的信息并推荐给用户的技术,已经得到了学术界和工业界的广泛研究。在工业上,推荐系统在电子商务和广告领域发挥出巨大的商业价值。在学术领域,许多优秀的推荐算法被不断的提出,推动
2008年,在党的十七大和全国科技大会精神引导下,我国颁布《关于推动产业技术创新战略联盟构建的指导意见》。《意见》指出,要充分认识到构建产业技术创新战略联盟是集聚产业技术创新资源、保障科研与生产紧密衔接、推动产业结构优化升级、提高产业核心竞争力、深化实施国家技术创新工程的重要途径,具有重要意义。湖北省响应国家要求,充分发挥自身科教资源优势,着力推进产业技术创新战略联盟的建设。截至2018年,湖北省
大学文化作为新时代中国特色社会主义先进文化的重要组成部分,承担着立德树人的神圣使命。大学文化建设涵盖了物质文化、精神文化、行为文化、制度文化等诸多内容,最终凝聚成
作为我国国民经济中最具发展潜力的产业的高新技术企业,在促进国家经济的稳定快速增长的同时,也使得经济结构转型进一步实现。我国针对高新技术企业制定了相关的税收优惠措施并不断完善,许多高新技术企业也都享受着政策的带来的利处,但高新技术企业在行业中发展进程不同,目前实行的税收优惠政策对不同的行业间影响效果存在怎样的差别,在目前的研究没有充分的说明这个问题,所以有必要结合当前税收优惠政策分析阐述高新技术企业
所得税优惠是当前世界各国激励企业投入研发创新活动、扶持战略性新兴产业发展的重要税收政策工具。而在“理性经济人”假定下,企业从事经济活动都是以获得最大利益为目的,故要激发企业研发积极性,利益驱动是根本。因此基于“所得税优惠-行为-经济后果”研究范式,探析所得税优惠、研发投入、企业绩效的脉络关系十分必要。对相关文献查阅后发现,多数学者研究的着力点是三者之间的直接关系,对其内在逻辑关系的研究较少。因此本
目的探讨青少年同伴欺凌受害类型和持续时间与青春期发育的前瞻性关联。方法采取整群抽样的方法,选取安徽省马鞍山市3所小学34年级学生,基线与随访1年分别开展体格检查、学生问卷与青春期发育评价。基于《欺凌/受害者调查问卷》和《多维度同伴欺凌量表》改编的《同伴欺凌受害问卷》,评价不同类型同伴欺凌受害经历,包括言语、躯体和社会欺凌受害;采用《青春期发育量表》(pubertal development sca
图书出版是国家文教工作的重点,中小学教材出版发行更是国家基础教材的基本载体。―互联网+‖促进产业融合,改变企业的外部环境,深刻影响着中小学教材出版发行企业的营销活动
自然场景的文本检测是指对图像中单词或文本行的边界框进行定位的一项技术,随着社会对于人工智能技术的需求不断增长,推动着人工智能飞速地发展,而文本检测作为人工智能的一部分,在这样的发展过程中也逐渐成为不可或缺的一项技术,拥有广阔的应用前景。目前,深度学习已成为文本检测领域的重要方法,各个基于深度学习的文本检测算法已经取得了较好的检测结果,在实际应用中也有良好的表现,然而对自然场景下的中文文本检测的研究