基于迁移学习的非平衡数据分类方法与应用

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:kuangzhiyong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实应用中,数据的收集和标注需要耗费大量的资源,并且收集到的许多数据集是非平衡的。非平衡数据的分类在很多领域,如故障检测、医疗诊断、信用卡欺诈检测中具有十分重要的意义。传统的机器学习分类方法要求训练数据和测试数据必须满足独立同分布条件,并且很多建立在数据集是平衡的假设基础上。当训练数据和测试数据不满足以上假设条件并且有标注的数据数量稀少时,传统的分类学习方法因为标注数据稀缺和倾向于多数类分类的问题,难以构建可靠的模型。在这种情况下,迁移学习和非平衡分类就显得十分必要。本文结合数据的非平衡特性,从模型层面、数据层面和特征层面,完成了以下工作:(1)基于参数迁移的非平衡分类算法。针对训练数据和测试数据是非平衡数据且对应的参数空间不同的问题,给出基于参数迁移的非平衡分类算法。该算法从模型构建的角度出发,一方面解决了传统机器学习算法在非平衡数据集分类能力较差的问题,另一方面从模型上对齐训练数据和测试数据的参数空间,改进分类器的结构。该部分所提方法的核心在于构建一个转换矩阵,使训练数据和测试数据在训练过程中共享相同的参数空间,最终完成知识迁移的过程。该方法不仅在已有的公共实验数据集上有较好的分类性能,而且在实际生产应用中的矿山微震检测上表现良好。(2)基于实例迁移的非平衡分类算法。针对传统迁移分类学习方法无法在数据集是非平衡的场景下获得较高的分类评价性能,构造了一种对少数类样本错分敏感的权重方案。该方法旨在提高少数类样本在分类中的影响,在保证多数类分类准确率的同时,降低分类器对少数类样本的错分代价。同时,算法还引入了集成学习思想,通过分类评价指标动态的调整弱分类器的权重,最终获得鲁棒性强、分类评价指标高的非平衡数据分类器。一系列的在公共数据集和矿山微震数据集上进行的实验表明,该方法在所提场景下具有良好的分类表现。(3)基于特征迁移的非平衡分类算法。针对非平衡数据集中训练数据与测试数据特征分布差异较大的场景,给出基于特征迁移的非平衡分类算法。该算法给出了与数据集特征相关的特征贡献度和特征相似度的定义,动态的评价特征迁移的过程,通过减少冗余特征实现降低分类器神经网络的复杂度,减少源域样本和目标域样本特征分布的差异,使得最终分类器在准确率和其它各项性能评价指标上得到有效的提升。所提方法被应用到公共数据集和矿山微震检测中,验证了其有效性。该论文有图20幅,表16个,参考文献114篇。
其他文献
随着城市和社会的发展,街区式商业综合体应运而生,它是一种新兴类型的商业综合体。街区式商业综合体最早出现在北美地区,它将街区的形态融入设计中,将场地内的公共空间变成城
管理会计是以现代管理科学为基础,以提高经济效益为目的,以一系列特定技术、方法为手段,对生产经营活动进行预测、决策、规划、控制和责任考评的信息系统,是现代企业会计的一大分
图(略)所示为某主轴箱箱体,在箱体上分布有一组平行孔系。由工艺可知,各加工面在镗孔前均已加工完毕,现在进入镗削主轴孔相传动轴孔。各孔的表面粗糙度要求分别是Ra0.8μm和Ra1.6μm
21世纪以来,全球化和地球村观念深入人心,跨文化交际渐渐成为人们不可或缺的一部分。随着汉语国际推广事业稳速发展,关于文化教学的研究受到广泛关注,学界已出现一定数量的研
天津大港发电厂发电机组汽机房的钢筋混凝土箱形基础发生了腐蚀损坏。本文介绍了该箱形基础的腐蚀情况、检测结果及腐蚀的原因分析,并建议补强处理,以延长其使用年限。
《海绵城市建设技术指南——低影响开发雨水系统构建(试行)》(以下简称《指南》)中的规划管控刚性指标(即年径流总量控制率)为海绵城市的建设方向及成效提供了量化标准,并强
本文介绍了变压器发生出口短路的危害,从技术和管理两个方面论述了预防变压器出口短路的措施。
现代中庭空间的设计初衷就是为人们提供一个免受气候影响的空间,而人们生活水平的大幅提高,使得商业综合体中庭空间的功能趋向复合化。因此在对其空间中的动线进行设计时,一
近年来特大型城市地下空间的大力开发成为土地扩张导致的必然趋势,同时伴随着室外景观逐步向室内发展,人们更加注重生活环境。地下商业空间景观能够帮助特大型城市更好地实现
针对于传统密码锁安全性能低及可靠性差等问题,立足于芯片中数据存储的保密性,运用EDA技术自顶向下的设计方法,提出了基于FPGA的四位电子密码锁的设计与实现方法,所设计的四