结构化数据不平衡处理研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zane35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的企业利用机器学习中的分类技术来分析各种商业数据,从中提取有价值的信息。这些商业数据中的大部分数据是正常类数据,少部分数据是异常类数据。大部分的商业数据都是不平衡的。因此,不平衡数据分类问题一直以来都是机器学习领域的一项重要研究课题。目前为止,不平衡数据分类方法主要分为数据层和算法层两个方面。本文分别基于数据层的数据合成思想和算法层的集成学习思想,提出了两种用于结构化数据不平衡处理的方法。本文的主要研究工作如下:首先,本文阐述了不平衡数据分类问题面临的挑战,详细介绍了解决此类问题的主要思想和方法,包括几种经典的数据不平衡处理算法、常用分类方法的基本原理和不平衡数据分类的评价指标。其次,本文针对结构化不平衡数据集中,少数类样本数量缺乏的问题,提出了基于循环一致生成对抗网络的数据层不平衡处理方法。该方法通过结合孪生数据对和循环一致生成对抗网络,对少数类样本的多维度特征进行拆分重组,以实现数据合成。合成的少数类样本在完整保留了原始少数类样本的特征分布的同时,增加了少数类样本的数量和少数类样本组合特征的多样性。为了使循环一致生成对抗网络能进行结构化数据合成,本文对其进行了两点改进。其一,基于结构化数据设计了孪生数据对,并将其作为循环一致生成对抗网络的输入。其二,结合原始循环一致生成对抗网络结构设计了结构化数据合成流程。之后,本文通过实验验证了该数据层方法针对结构化数据不平衡处理的有效性。最后,本文针对结构化不平衡数据分类任务中,多数类易过拟合、少数类拟合困难的问题,提出了基于聚簇的异质集成不平衡分类方法。本文使用可以进行聚簇数据量控制的K均值聚类算法进行聚簇划分,并使用收敛稳定的遗传算法来对异质集成的分类器权重进行多目标优化。聚簇划分降低了数据集的局部不平衡,且不同聚簇的特征分布差异较大,保证了基分类器的差异性,从而提高了整体集成分类的表现。基分类器基于不同的分类器异质集成,以进一步提高模型整体分类性能。之后,本文通过实验验证了该算法层方法针对结构化数据不平衡处理的有效性。
其他文献
在三维视觉领域中,点云是一种经典的表示方式。基于激光雷达等物理传感器采集到的点云数据存在着含噪声、低分辨率等问题,无法满足如自动驾驶、虚拟现实等计算机视觉的应用需求,因此对点云数据增强方法的研究有重要意义。即给定分辨率较低的点云作为输入,通过点云增强方法得到稠密、高分辨率的点云。传统方法多使用对称性假设、数据库先验模型匹配等算法完成该任务,存在对噪声较为敏感和通用性较差的问题。近年来,随着Poin
学位
近年来,随着深度学习技术在图像分类与识别等研究领域中的持续发展,不少应用了这些技术的人工智能产品已经投入使用。当前的研究结果显示,深度神经网络在执行许多任务时会表现出脆弱性,即在干净的样本中加入一些不易察觉的干扰可能使深度神经网络产生认知误差,从而导致深度学习模型的不稳定性。由此可见,深入研究对抗攻击算法,将成为深度学习领域的一个重要课题。本文受生成对抗网络GAN的启发,对基于GAN的图像分类对抗
学位
差分进化算法(DE)在求解优化问题时具有易于实现,不依赖于问题具体形式的优点,得到广泛应用。许多DE变体已经在进化计算大会(CEC)上取得了不错的成绩,表明了该类算法具有良好的性能。根据“No-Free-Lunch”(NFL)理论,单种优化算法并不能涵盖所有的优化问题,DE算法也具有该局限性,针对不同类型的优化问题,目前的DE改进算法依然不能取得很好的优化结果,因此仍需提出效果更好的改进算法去解决
学位
近些年来,随着载人航天技术和深空卫星技术以及移动通信技术的不断发展,人们对于动态时变环境下的通信系统的建立的需求日益迫切。现有的数字通信技术都需要接收机中精确的同步系统。对于高动态通信条件下,由于通信双方都处在高速的移动当中,导致在接收机内部会引起极大的多普勒效应和高阶变化率甚至是突然的信道衰落,严重影响了信号的可靠接收。这需要更加强劲高效的载波同步模块,能够在复杂动态环境下稳定工作。因此研究高动
学位
卫星编队飞行技术以其独特的优势成为21世纪空间技术发展的新趋势和航天领域的研究热点,此外,由于被动定位系统不需要主动发射信号,具有隐蔽性强等优点,受到国内外学者的广泛研究,因此,基于编队飞行卫星的被动定位具有良好的发展前景。在被动定位领域的研究中,基于到达时间差(Time Difference of Arrival,TDOA)/到达频率差(Frequency Difference of Arriv
学位
语义分割是一种像素级别的分类任务,其目的是为图像中所有的像素点分配一个相应的类别属性。遥感作为地球监测技术中的一个重要组成部分,其产生的影像具有超大的幅宽范围和丰富的图像内容,对其进行语义分割在城市规划、资源勘探、军事侦查等领域有着重要的意义。然而,由于遥感影像内容和光学成像条件的复杂性,空间分辨率达到亚米级别的遥感影像在语义分割上面临许多困难,通常难以获得对其细粒度的精确语义分割结果。本文基于深
学位
深度神经网络在现有图像分类、图像分割、目标检测等任务中取得显著效果。对抗扰动的出现已经证明了深度神经网络存在安全隐患。现阶段,已有方法将数字对抗扰动应用于数字世界,通过在输入图像中添加人眼难以观察到的微小扰动,使深度神经网络推断结果不可靠。此外,物理攻击方法在训练对抗补丁时添加噪声、光照变化、相机光学畸变等真实世界中的噪声,使训练后的对抗补丁能够抵挡物理环境对其鲁棒性的影响。目标检测任务作为计算机
学位
近年来,数字化在商业、医疗、娱乐等领域不断深入,各种在线数字平台不断涌现,人类社会已悄然进入了数字时代。随着数字平台的数量不断增长,数字信任问题也在迅速增长,用户面临的威胁日趋复杂。当前基于用户名和口令的认证协议已难以满足日益增长的安全需求。具体而言,用户选择不同口令登录不同平台,极大地增加了用户记忆负担;此外,口令认证安全性低,面临许多已知攻击。以用户为中心的多因子认证协议可解决上述问题,采用单
学位
日志作为记录系统实时运行状态和程序执行状况的数据,既是软件开发人员和运维人员监测系统运行状态重要资源,也是实现系统异常检测的绝佳数据源之一。当下基于深度学习的日志异常检测已经成为自动化系统异常检测研究领域的重点关注内容之一,但仍存在以下难题亟需解决:日志文本数据其中所包含的信息和特征很难直接作为输入被深度学习模型所学习,需要构建特定的日志解析方法;传统的日志异常检测模型仅适合特定系统,忽略了日志所
学位
随着信息技术的不断普及,实时监控技术在物联网中得到了广泛的应用。重要公共场所均安装了摄像头监控设备,这些场所更关注物体移动变化而非固定的场景画面。由于摄像头经常处于复杂干扰环境中,视频流的实时传输效果无法得到保障。当传输环境较差时,现有的自适应视频压缩方法通常会随机降低某些帧的分辨率,以保障视频的播放流畅。若被降分辨率的帧是含有移动物体的关键帧,则不能满足视频监控获取关键信息的要求。因此,为了提高
学位