【摘 要】
:
信息高速发展的今天,每时每刻都会产生大量的数据,对大数据进行分析处理能够带来明显的经济、学术价值。分类一直以来都是大数据处理中比较常见的手段,同时分类问题也是机器学习中比较重要的一类问题。然而,很多分类方法都基于一个前提:数据在不同类别上的分布是均衡的,不同类别的样本被分错的代价也是相同的,这显然不符合现实情况。在数据分析的实际操作中,数据集的不平衡是一个不可避免的问题。如何在不平衡数据集上分类是
论文部分内容阅读
信息高速发展的今天,每时每刻都会产生大量的数据,对大数据进行分析处理能够带来明显的经济、学术价值。分类一直以来都是大数据处理中比较常见的手段,同时分类问题也是机器学习中比较重要的一类问题。然而,很多分类方法都基于一个前提:数据在不同类别上的分布是均衡的,不同类别的样本被分错的代价也是相同的,这显然不符合现实情况。在数据分析的实际操作中,数据集的不平衡是一个不可避免的问题。如何在不平衡数据集上分类是包括信息技术、财务管理、医疗等现实世界各个领域普遍面临的问题。目前,解决不平衡分类问题的主要方法分为以下五个层面:数据层面、特征选择层面、成本敏感学习、集成学习和其他方法。其中,数据层面的采样方法和集成学习结合起来的效果相对而言较好,不依赖于算法,适用性也更加广泛。在采样方法中,过采样容易导致数据的过拟合,欠采样又容易丢失部分数据信息。本文针对当前采样方法的缺点,提出了一种大类样本转化为小类样本的MMR算法。MMR通过一种启发式的方法,选择一部分的大类样本,改变它们的类别标签,将它们加入到小类中,使这些被选择的大类成为名义上的“小类”。这样既增加了小类样本的数量,也降低了大类样本的数量,使得整个数据集更加平衡。除此之外,本文也为采样方法MMR提出了一种新的基于提升的MMBO集成方法,通过有区别地对待转化样本和未转化样本,使得该方法在不平衡分类问题上具有更好的性能。本文进行了丰富全面的实验,选取多个评价指标,增加了数据集的数量和规模。最终实验结果也表明本文提出的方法能够有效解决不平衡分类问题。
其他文献
随着21世纪航空业的高速发展,坐上飞机这件事也从遥不可及变成了飞入寻常百姓家。2008年,中国民航提出了全面推进民航强国的思想战略。然而科技的发展也是一把双刃剑,先进的科技带来了民航飞机的设备本质安全的同时也带给了我们新的问题。在民航安全方面,随着乘客多样化的增加,民航的机上安全成为了确保飞行运行安全的最后一块阵地。这些新问题的产生不仅仅涉及到机上所服务的乘客,另一方面机上空中安保人员也是重要的组
医学图像是医生对病人病情和诊疗方案做出判断的重要依据,然而不同设备获取的医学图像通常有一定的差异,且不同病人的医学图像内容可能差异较大。医学图像分割能自动提取图像中的相应目标,一定程度上减轻医生的负担,减少因医生主观经验和图像差异等带来的漏诊误诊等。近年来,基于深度学习的分割方法以优异的性能成为医学图像分割领域的主流解决方案。然而,诸多基于深度学习的分割方法在提取特征、提升性能的同时通常会带来巨量
近年来,深度学习发展迅猛,在图像分析、自然语言处理等领域取得了优异的成绩。深度学习的优异表现依托于海量的数据支撑,数据的质量、数量都影响着深度学习模型的性能。然而,在现实场景中获取大量数据标注意味着庞大的人力、时间成本。弱监督目标定位为大规模数据的定位标注提供了途径。弱监督目标定位技术仅使用图像的类别标签,为图像中的目标生成边界框。在现实场景中,图像的类别标签比图中物体的位置信息更加容易获得。因此
生成对抗网络作为一类领先的生成模型,在计算机视觉领域中取得了令人瞩目的成果。生成对抗网络能有效地对数据分布进行建模,特别是采用有监督学习的生成对抗网络,其能从数据分布中提取更为可靠的表征。但基于有监督学习的生成对抗网络的主要缺点为对类别标签的依赖。在实践中,并非所有数据集都包含有标签的数据,倘若数据集中不存在足量的有标签数据,基于有监督学习的生成对抗网络的性能则会受到较大影响。因此,研究如何使用无
随着民用航空器活动的日益频繁,噪声问题引起了适航当局和工业方的高度重视。发动机是航空器的主要噪声源,其贡献度与航空器的飞行状态直接相关,对发动机整机噪声源的定量评估不仅有利于国产发动机开展针对性声学设计,同时能够提升我国民机适航评价能力。为此,本文采取理论分析和试验数据验证相结合的方法,探索发动机部件噪声的精细化分解和静态发动机噪声向飞行状态映射中的关键影响因素,开发基于远场指向性测点数据的发动机
民用飞机燃油箱是飞机功能系统的重要组成部分,在执行飞行任务的过程中,燃油箱点燃爆炸会严重影响飞机的飞行安全,造成人员伤亡或财产损失。为保证飞机的飞行安全,有必要在飞机的设计定型和生产制造的过程中,对飞机燃油箱可燃性暴露进行评估。在飞机飞行过程中,燃油箱自身和周围环境的变化,对燃油温度有着最直接的影响,进而影响燃油箱可燃性暴露。本文将研究不同因素对燃油箱温度的影响,通过仿真得出这些因素对燃油箱可燃性
随着深度学习技术的突破性发展,越来越多的关键领域开始应用深度学习技术来解决困难问题。然而,深度学习模型自身具有的脆弱性却往往遭到忽视,通过向输入样本中添加精心设计的扰动而制作的对抗样本,能够导致深度学习分类器以极高的置信度给出错误的预测结果,进而威胁到模型安全、人身安全乃至公共安全。面临对抗样本的威胁,亟需快速有效的防御手段。近年来,学术界分别围绕主动防御与被动防御两种防御策略展开研究,提出了对抗
随着计算机技术的飞速发展,国内外越来越多的学者选择采用计算机模拟的方法来研究民用航空器的应急疏散,但是在诸多研究中,乘客大多被建模为同质的,没有感情的,在民用航空器应急疏散过程中,乘客的不同情绪强度会对应急疏散决策行为有重要影响。因此,本文就乘客因情绪强度不同所表现出来的不同应急疏散决策行为进行了研究。主要研究内容如下:本文首先对民机疏散和行人决策理论相关研究进行了梳理,然后对民机乘客应急疏散决策
随着航空工业的迅速发展,聚合物材料的应用范围一直在增加,其中环氧树脂(EP)因具有优异的粘结性、力学性能、绝缘性和耐化学腐蚀性,被广泛应用于航空器的结构材料和复合材料的基体。此外,锂离子电池(LIBs)被列为民航危险品运输的关键一项,而隔膜作为LIBs的重要组分之一,在为防止电池正负极短路和为锂离子传输提供通道起到关键作用。但是,EP和LIBs隔膜本质上是由C、H和O三种元素构成的聚合物材料,故一
视频目标分割是通过用户指定或根据视频特征,在视频中分割出目标物体的一类视频处理技术。其对于视频编辑、推荐、搜索起到支持的作用,具有重要的研究价值。而当前不同的视频目标分割任务分别存在以下问题:通过对每个视频先标注出目标物体去分割指定目标的方法无法跨视频自动化处理、通过运动等信息可以跨视频分割出物体的方法又无法做到语义指定的分割。本文从兼容跨视频处理和语义指定分割的角度出发,对少样本视频目标分割进行