不平衡分类大数据的网格边界域抽样算法

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yx10110605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,大数据抽样技术已成为分析研究的热点。分类大数据在经济数据中占比庞大,是大数据分析的重要对象,而实际分类数据常表现为类间不平衡性,采用传统的随机采样方法将影响分类算法结果,同时大数据自身的复杂性也给数据分析带来挑战。为解决不平衡分类大数据在分类学习中面临的三个主要问题,本文分别采用如下手段解决,并提出一种不平衡分类大数据的网格边界域抽样算法NGBM。(1)为解决分类数据的不平衡性造成的正类准确率降低问题,本文采用基于边界域和非边界域的混合采样策略。本文从数据分布层面,通过混合抽样策略解决分类大数据的不平衡问题,提出基于边界域识别的混合抽样策略。(2)为解决大数据自身特性带来的分析问题,本文提出降低大数据复杂特性的网格单元化处理,使得庞大繁复的数据样本点对应到个网格空间中,降低分类大数据的分析难度。(3)为解决分类大数据抽样中的边界识别问题,本文提出基于近邻关系的网格边界域识别方法,将网格单元分为边界单元、非边界单元和噪声单元,并指导混合采样策略。本文提出的不平衡分类大数据的网格边界域抽样算法NGBM主要步骤为:首先扫描数据空间,将总体数据集内个样本点映射到网格空间内,并根据设定的质量函数、近邻关系和边界阈值,按照边界度计算方法,计算每个网格单元在第维上的左、右边界度;其次,根据判断标准,将单元划分为边界单元、噪声单元和非边界单元;再次,将同类型单元内样本点分别合并为样本集,采用混合抽样策略:对于边界域样本集内正类样本进行SMOTE过采样处理,对非边界域样本集内负类样本进行随机欠采样处理,使总体数据的抽样子集成为平衡分类数据集;然后,若此时子集规模较大,采用简单随机抽样缩减子集规模,使之成为保留了总体重要信息的小规模数据集;最后,对抽样子集进行不加权的分类学习,重复次,计算评价指标平均值。在实验阶段,通过C4.5决策树分类学习器,采用准确率、召回率、F1-score、G-mean、KS值、AUC和调整兰德系数作为评价指标,对比随机欠采样和SMOTE过采样方法,分析本文算法NGBM的可行性。在多种分布和不同不平衡度的模拟数据集和真实数据集中,本文算法均获得良好的表现。
其他文献
近年来我国经济发展迅速,已经成为世界第二大经济体,中国经济发展进入新常态,提高经济发展的质量依然是下一阶段的目标。外商直接投资(FDI)为我国提供了资本以及先进的生产技术,对我国经济起重要的推动作用,随着国际分工和国内产业结构调整,加上绿色低碳发展的目标,我国开始重视引入外资的质量。另一方面,电力资源是使用范围最广的二次能源,电价改革是我国电力改革的核心,电价关系着地区经济发展和企业经营成本,也影
学位
本文以航空器的场面运行过程为切入点,探究航空器场面运行的内在规律,深入研究场面协同管理的机理,为机场场面管制工作提供理论参照。首先,论文简明扼要对机场场面功能结构的构成进行介绍,在此基础上分析航空器在跑道、滑行道、停机坪和停机位的运行过程;梳理航空器在场面上的可能运行冲突,重点介绍、分析滑行道冲突和停机坪冲突的类型和解脱方法。结合问卷调研结果从管制实际工作角度出发,总结归纳影响航空器场面运行的要素
学位
经济增长目标管理是中国宏观经济的重要现象,外商直接投资的注入为经济增长提供了重要的源泉。本文收集中国各地级市《政府工作报告》与人民政府门户网站所公布的年度经济增长目标,并匹配城市宏观经济数据,形成2001-2016年的284个地级市面板数据,检验经济增长目标对吸引外商直接投资的影响。研究发现,经济增长目标的提高显著增大了城市的实际利用外资数量。为了检验该结论是否稳健,本文进行核心变量的变换度量,进
学位
随着国际分工的不断深化,产业间分工逐渐发展为产品内环节分工,各国根据自身要素优势承担不同生产环节,由此发展成以产品内分工形态为主的全球价值链;而外资企业开展的国际投资形成了全球价值链的主动脉,直接影响了本土企业的生产与发展。探讨单一渠道的FDI技术溢出效应对本土企业全球价值链地位的影响已不满足“产品内分工”的发展趋势,本文将FDI技术溢出效应划分为水平溢出效应、前向关联效应和后向关联效应,分析三者
学位
本文主要研究区域管制与进近管制之间航空器的管制移交问题,从移交过程的时间间隔与距离间隔两种角度进行分析,在此基础上探究航空器在移交阶段的间隔特性及规律,为空中交通管制方法及未来实现智能空管提供实证和参考。本文的主要研究工作如下:首先,选择首都国际机场连续两周进场航空器的广播式自动相关监视系统数据为研究对象,选定北京区域15号扇区与北京终端区最繁忙的07号扇区边界DUGEB点为所要研究的移交点,运用
学位
服务化在制造业产业转型升级的过程中扮演着重要角色。生产过程中的服务投入有利于产业链的效率提升和价值增值。为实现制造业高质量发展,必须推进制造业与服务业的有机融合,提高制造业服务化水平。开放经济条件下,外商直接投资是一国实现资源优化配置,提升经济效率的重要途径之一。如何更好地把握对外开放的机遇,使FDI成为推动中国制造业服务化的有效手段,具有重要的研究意义。基于此,本文就FDI对制造业服务化的影响展
学位
随着中国民用航空运输业的迅速发展,持续增长的交通需求与有限的空域资源之间的矛盾愈发明显。民航局空管局指出通行能力研究不仅是缓解空域拥挤的有效途径,还是平衡空域资源供需矛盾,继而实现空域资源最优配置的重要依据。另一方面,从空域精细化管理的角度来看,通行能力能更好反映空域内部在各个时段的实际交通服务能力,还可为民航空管系统制定科学合理且有效的流量管理措施提供指导。由于通行能力研究对于提高空域运行效率具
学位
随着中国民航的快速发展,日益增加的空中交通流量对当前空域系统服务能力带来极大挑战,管制扇区的运行态势也变得越来越复杂。对管制扇区运行态势复杂程度的精确量化是提高空域系统服务能力的基础。现有研究的复杂性指标并没有考虑到航班航迹发生变化时扇区空中交通系统的韧性变化。为此,本文基于系统韧性思想提出了一种新的空中交通复杂性评估方法,首先根据航班间潜在交互关系建立扇区空中交通态势网络,进而基于网络效率、网络
学位
近年来飞行区内航空器及保障车辆的数量不断增多,交通冲突不断涌现,存在较大的安全隐患。以航空器和保障车辆为研究对象,建立飞行区活动目标网络模型,采用多个特征指标表示潜在冲突程度,并通过长短期记忆神经网络(Long Short-Term Memory,LSTM)对其进行预测。飞行区活动目标网络模型建立。基于复杂网络理论,以飞行区内活动目标为节点,根据两个节点之间是否存在潜在冲突关系而建立连边,以两节点
学位
随着电子商务、快递物流的迅猛发展和低空空域的逐步开放,我国正积极探索并验证城市无人机物流配送试点经营管理模式。面对日益增加的城市物流需求,如何利用无人机开展安全、高效的物流配送,就成为了物流界内外重点关注的问题。因此,依据城市物流无人机运行现状,研究其运行管理中的关键问题,能进一步完善城市物流无人机配送体系,推动无人机在城市末端物流的发展与运行,具有重要的现实意义和理论价值。本文以为城市物流无人机
学位