【摘 要】
:
当今的大数据时代下,在数据挖掘、机器学习、图像、文本等领域中都存在类不平衡问题,类不平衡问题一般指不同类别之间样本数量的分布不平衡。基于机器学习的分类算法处理普通的平衡的数据集时较为有效,但数据集存在类不平衡问题时,会产生类别重叠、样本量小、边界模糊和小分裂群等问题,这将影响后续分类器的学习,导致其性能低下。目前解决类不平衡问题的方法可归纳为三类,数据级方法、算法级方法和集成方法。数据级的方法是针
论文部分内容阅读
当今的大数据时代下,在数据挖掘、机器学习、图像、文本等领域中都存在类不平衡问题,类不平衡问题一般指不同类别之间样本数量的分布不平衡。基于机器学习的分类算法处理普通的平衡的数据集时较为有效,但数据集存在类不平衡问题时,会产生类别重叠、样本量小、边界模糊和小分裂群等问题,这将影响后续分类器的学习,导致其性能低下。目前解决类不平衡问题的方法可归纳为三类,数据级方法、算法级方法和集成方法。数据级的方法是针对数据本身进行分析,其可分为过采样、欠采样以及混合采样三种。本文重点关注数据级方法中的过采样方法,过采样方法通过人工合成样本来改变数据的数量,使两类别之间达到平衡,该1方法产生的平衡数据可供各种分类器学习。数据级的方法可以从根本上解决不平衡问题,得到了广泛的研究与应用。现有的过采样技术有很多,也都取得了一定的成果,但是目前较为流行的方法都包含随机过采样算法,这种方法产生的样本点的代表性较差,也无法较好的确定采样率,没有很好地考虑样本空间分布的影响,导致最终生成的样本点质量较差。为了解决上述问题,本文的工作主要包括以下几个方面:(1)提出了类不平衡数据的EM聚类过采样算法OEMC(Oversampling based on EM-clustering)。首先,算法采用聚类技术,通过欧式距离衡量样本间的相似度,选取每个聚类簇的中心点作为过采样点,一定程度解决了样本的重要程度不够的问题;其次,通过直接在少数类样本空间上进行采样,可较好解决SMOTE,Cluster-SMOTE等方法对聚类空间没有针对性的问题;同时,通过对少数类样本数量的30%进行过采样,有效解决基于Cluster聚类的欠采样盲目追求两类样本数量平衡问题,以及SMOTE等算法没有明确采样率的问题。(2)提出了基于多层残差聚类与层间带权样本选择的过采样算法MRC&IWSS(Multilevel residual clustering and inter-layer weighted sample selection),MRC&IWSS算法采用多层聚类结构,解决了当前过采样方法无法二次利用过采样信息的问题,使合成样本质量更高;其次算法使用残差结构连接每层,使层间样本分布保持一致性,并且较大程度上避免了随着层数增多而出现过采样性能退化的问题;最后,算法利用层间带权样本选择机制,一定程度上解决了边界模糊的问题。(3)为了验证本文提出的OEMC算法和MRC&IWSS算法的有效性,选取了现有的多种数据级重采样方法作为比较对象,采用多个不平衡问题的性能评价指标,对传统分类算法在几种算法处理后的不平衡数据上的分类性能做出了比较与分析,最终证明了两种数据级过采样算法的有效性。
其他文献
带雾图像能见度检测与去雾是计算机视觉与交通视频图像处理的热点方向,能见度检测算法能够有效避免事故发生,图像去雾算法可扩大最远能见度距离,进一步将事故率控制在最小范围内。传统检测方法检测范围小、误差较大,传统去雾方法得到的去雾图像失真、色彩过饱和。针对上述问题,本文分别设计利用透射率和场景深度的带雾图像能见度检测算法以及结合Stacked Hourglass网络模型的图像去雾算法。1、利用透射率和场
在计算机视觉领域,视觉目标跟踪技术在实际生产生活中有着重要的应用价值,吸引了一大批学者在这个领域中持续耕耘。随着深度学习的发展与大量数据的产生,视觉目标跟踪的发展路线逐渐划分为基于传统机器学习算法与基于深度神经网络的目标跟踪。尽管当前有许多优秀的算法被提出来,但是当前视觉目标跟踪仍然面临诸多的挑战,如遮挡、背景混乱、尺度变化等,本文以孪生网络跟踪框架为基础,从特征提取模块和特征融合模块入手对目标跟
如今的全球定位系统、手持设备、带有定位系统的车辆以及很多其他领域每天都产生大量的空间数据,这些空间数据中存在着十分重要的潜在价值。空间数据挖掘的目的就是要呈现潜藏在空间数据中有意义、有价值的信息。空间并置模式挖掘是空间数据挖掘的一个分支,传统的空间并置模式挖掘算法采用最小频繁性阈值来判断一个空间并置模式是否频繁,然而在实践中不容易确定一个合适的最小频繁性阈值,并且这些方法识别空间并置模式的行实例会
科学技术在进步,时代在不断变换,企业之间的竞争也越来越激烈。营运能力是验证其企业健康和是否可持续发展的核心指标,作为企业财务分析的四大指标之一,影响企业的发展前景。分析企业的营运能力,判断企业的营运状况,可以帮助投资者、经营者、债权人以及其他利益相关方了解企业过去、评价企业现状、预测企业未来,提供准确的信息以做出正确决策,还可以帮助企业有效避免经营方面的风险,提高竞争力。
深度学习在医学图像分析中的可使用性和潜力在过去几年中显著增加,由于医学图像的手动注释对于临床专家而言非常耗时,因此可靠的自动分割算法是处理大量医学图像数据注释的理想方式。医学图像的自动分割算法用于描述医学图像的解剖结构和其他感兴趣区域,并指导放射治疗和改进放射诊断。受深度学习的成功驱动,深度学习的应用潜力使其成为医学图像分割算法的主要选择。目前,在各种医学分割任务上,基于深度学习的自动分割算法取得
视频目标跟踪技术能够根据初始帧给定的目标信息,在后续视频帧中得到该目标的运动参数。其在精确制导、智能导航等诸多领域有着广泛的应用前景。但实际的跟踪过程中存在各种复杂的情况,以至于视频目标跟踪算法要面对较多的挑战。本文主要针对相关滤波跟踪算法在目标遮挡、背景杂乱、快速运动等挑战中出现的响应图的多峰值的问题,基于多峰检测技术对相关滤波跟踪算法展开研究。本文开展的主要工作如下:第一,针对目标遮挡与目标形
影响最大化是社会网分析的一个重要研究方向,在广告营销,舆情控制等领域具有广泛应用,影响最大化方法旨在寻找一组具有较高影响力的初始种子节点,最大化传播和扩散节点的影响范围。目前主要的影响最大化方法主要是针对同质社会网,同质社会网只是现实世界同类对象与对象之间关系的一种简述,并不能真正的表达现实社会中多种对象类型之间的社会关系。异质社会网中多种对象类型,多种对象间关系类型蕴含着丰富的结构和语义信息,有
社交网络的发展为信息的快速传播带来了新的潜力,而确定网络中具有影响力的节点被视为这种潜力能够付诸行动的关键因素,影响力最大化的问题也由此被提出。影响力最大化问题旨在从给定的网络中找到固定大小的种子集,再经过特定的传播模型,使最终的信息扩散范围达到最大。正因为其在商业领域的巨大应用潜力,影响力最大化问题受到了广大研究者们的青睐。目前关于影响力最大化问题的研究大多都集中在同质信息网络,忽视了不同类型节
信息时代的浪潮不断推进,但空间数据的指数级增长与海量数据的处理能力不匹配,由此空间数据挖掘应运而生。空间co-location模式挖掘能发现空间中频繁关联的特征,在空间数据领域得到广泛关注。本文研究的空间co-location主导特征模式挖掘方法,能够发掘不同重要性的空间特征,为空间数据分析及决策提供支持。在空间co-location模式的主导特征挖掘中,特征实例的空间分布状态是衡量模式中特征主导
随着互联网上的数据海量增长,信息过载严重阻碍了人类社会的发展,推荐系统应运而生,它通过过滤、筛选匹配等手段,以解决信息过载的问题。传统的推荐系统核心问题是根据用户的历史反馈对用户和项目之间的交互进行建模,但这种建模的方式是静态的,只能捕获用户的共性偏好。在现实生活中,用户的习惯往往是序列化的行为,而不是独立的交互。此外,用户的偏好和物品的流行程度也会动态变化。不同的上下文通常会导致不同的用户项目交