基于生成式对抗网络的不均衡数据集分类方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:xuzhoucumt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习、深度学习等人工智能技术的不断革新。由互联网所带来的数据规模也在不断扩大。而这些网络数据一般格式各异,且普遍存在不均衡性。在当前人工智能领域中,不均衡的数据对机器学习算法来说是致命的,轻则模型效果直线下降,重则模型直接瘫痪。数据不均衡领域的研究仍有较大的意义。近年来,生成式对抗网络(GAN)横空出世,在图像领域、医学领域等都具有很大的贡献,比如风格转换、人脸生成、动漫图像生成等。本文提出一种基于生成对抗网络的非均衡数据集分类方法,生成器的功能是尽量拟合输入真实数据的分布,判别器则是尽量去判断样本是来自生成器还是真实数据,两者之间相互竞争共同提升,直到纳什均衡。使用GAN的强大生成能力可以扩增非均衡数据集中少数类样本。本文首先引入了生成式对抗网络模型,包括单层感知器、多层感知器、正向传播、反向传播、卷积层、池化层、激活函数等方法。但模型仍然会出现生成数据与原始数据差异大,导致模型的准确率、查全率、查准率等性能降低问题,所以本文对其进行以下改进:1)使用能量损失作为模型的损失函数;2)在能量损失的基础上,加入KL散度函数,保证所生成的数据与原始数据的先验假设分布相似;3)生成器使用的是噪声数据,融入去噪函数对目标函数做进一步优化。逻辑回归算法、支持向量机、Ada Boost算法都是机器学习较为常用的算法,本文使用这三个算法对原始不均衡数据集进行建模,对经过改进后的GAN均衡化数据进行分类建模,分别对比其模型的准确率、查全率、查准率、F1值等指标,并得到以下结论:(1)经过改进GAN模型均衡化后的数据集,其准确率、查全率、查准率和F1值都得到一定的提升,特别是查全率提升得较为明显,使用改进GAN模型能有效缓解不均衡数据对机器学习算法的性能影响问题。(2)经过改进的GAN模型均衡化后的数据集,在某些数据或某些算法中会使得模型性能下降,即改进的GAN模型所产生的新样本还是存在一定的噪声。(3)本文使用四个数据集、三个机器学习模型、四个模型评价指标进行实验,都表明经过改进的GAN模型可以有效缓解不均衡数据对机器学习算法的性能影响。
其他文献
当前,互联网能够不受空间限制地进行信息交换的能力,使得人们对互联网的需求不断增加。但传统互联网在发展过程中一直存在信息覆盖不全的弊端,不能满足用户任意时间、任意地点的接入需求,因此不受天气环境因素影响的天空地网络出现在人们的视野里,该网络具备全球无缝的常态化覆盖能力。然而传统互联网的IP地址双重身份存在的诸多问题并不能很好的适应天空地网络,为此,国内外许多研究学者都对该网络架构做出了改进,其中较为
基于固态纳米孔搭建的传感平台已经在多个研究领域有着重要应用,并取得了重要进展,如生物传感、分子测序、海水淡化等领域。固态纳米孔作为其核心部分,广受科研人员的关注。随着纳米孔需求量的激增,采用廉价的手段进行大规模的纳米孔制备技术成为了研究热点。本文针对以上需求,对阵列化制备固态纳米孔的技术方案进行了深入研究,并对制备方案进一步改进,在满足成本与效率相协调的同时增加了制备的可控性。在目前常见的纳米孔制
随着大数据时代的快速发展,运用大数据技术学习数据中的有用信息至关重要。推荐系统为解决信息过载提供了有力的支撑,但是当新用户或新项目出现时还存在冷启动问题,因此,学术界提出跨领域推荐技术,通过学习辅助领域的用户偏好或项目知识表示,来解决目标领域的数据稀疏和冷启动问题,提高目标领域的推荐性能。然而目前的跨领域推荐模型在学习领域间的项目关联关系以及共性知识提取方面还有很大的提升空间。近年来,图神经网络在
近年来,城市轨道交通伴随着我国经济的快速增长,进入了迅猛发展建设时期,已成为城市的能耗大户。许多专家学者通过研究城市轨道交通列车自动运行控制系统(Automatic Train Operation,ATO),并提出不同的优化方法来降低列车运行产生的牵引能耗。优化方法的研究主要集中在优化列车节能运行的目标推荐速度曲线及跟踪速度曲线上,本质上属于离线优化。而在实际的地铁运营中,列车所处的运行环境和运行
列车制动过程引起的热疲劳损伤严重威胁列车的运行安全,新型Mn-Si-Cr系贝氏体钢具有良好的综合性能,有望成为新型车轮材料的良好替代。但是,在实际线路服役测试中,新型贝氏体车轮也存在这种热疲劳损伤现象,而目前鲜有针对贝氏体钢热疲劳性能方面的研究。本文针对Mn-Si-Cr系贝氏体车轮钢,研究了其热疲劳损伤规律及机理,利用有限元仿真软件探究了列车闸瓦制动过程中车轮内部温度场,应力场分布规律及车轮内部温
股票趋势预测旨在预测公司股票的未来趋势,从而让投资者规避风险,获取比较大的收益。由于股票趋势预测方法的研究具有十分重要的理论意义和实用价值,所以长期以来一直吸引着学者们的关注。但是,股票市场瞬息万变,影响股票走势的因素有很多,如股票价格的历史曲线图、金融新闻以及社交媒体评论等,导致趋势预测的难度增加。随着深度学习和自然语言技术的飞速发展,学者可以充分利用这些新技术从股票价格数据和金融新闻、社交媒体
强化学习在信息论、机器人、自动控制与无人驾驶等领域已经取得了非常出色的应用成果。通过对强化学习的不断深入研究,部分强化学习算法被证明具备一定解决复杂问题的能力。而强化学习算法往往面对复杂多变的应用场景,算法的稳定性直接影响了算法的实际运行结果。目前,对强化学习算法的稳定性评估已经取得了较好的研究成果。现有的工作大多通过对算法施加不同种类的算法攻击与修改算法超参数来完成算法稳定性的评估。但上述工作的
工业4.0.是基于传统制造业和数字技术的结合。此背景下,各企业必须不断探索新技术以保持自身竞争力。增材制造是一种数字化制造技术,它使企业能够重新设计供应链的结构。在获取三维数据的基础上,逐层打印固体物体的生产过程。传统的供应链效率取决于流水线产能、劳动力成本、材料可用性以及流程的复杂性。而增材制造则摆脱了这些限制,通过允许在更接近需求点的时刻生产难以成型的小批量零件,以此减少供应链中不必要的生产环
学位
激光作为20世纪最伟大的发明之一,凭借单色性、相干性、方向性等传统光源无法实现的技术优势,已经应用于诸多领域,如光纤通信、光纤传感、全光信息处理、光存储、激光加工、激光手术、光刻技术、激光雷达以及激光武器等。高精度激光分束技术是激光加工、光刻、光镊以及激光手术等先进制造与医疗领域的共性关键技术,也是当前激光应用技术的发展前沿。现有高精度激光分束技术主要用于实现均匀光强分布的双光束,任意空间分布与任