流形嵌入过采样非平衡学习及其应用研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户:seelo1332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不管是在真实世界获得的数据集,还是仿真平台获得的数据集都存在着大量的非平衡特性。非平衡意味着数据集中不同类别数据的数据规模存在巨大的差异,例如在一个数据集中多数类数据有1000条,而少数类的数据只有10条。这种非平衡特性会给后续的模式识别带来很大的困难,并且非平衡数据集在工业过程故障诊断的场景下非常常见。因此,对非平衡问题的关注与研究是很有必要的。  过采样算法是比较常见的一种解决非平衡问题的思路。其通过重新对观测数据集进行采样的方式,增加少数类样本的数量,将原先的非平衡数据集转换成平衡数据集,最后在平衡数据集上进行模式识别。但是先前大多的过采样方法并未考虑观测空间数据集数据间存在的非线性特性,而直接用线性插值的方法增加的少数类样本的方式,很可能会使得新增的少数类样本并不满足原始观测空间数据的真实分布特性。因此,本文将流形学习与过采样算法相结合,通过流形学习来发掘观测空间数据集的本质结构,之后基于这一本质的数据结构进行过采样,来提高非线性非平衡数据集过采样生成的少数类样本的质量。  1. 针对工业故障诊断中存在的非平衡问题,提出一个流形嵌入过采样框架。首先,验证了流形嵌入过采样这一框架所生成的少数类样本基本满足观测数据集的数据分布。然后,在这一框架中测试了6种流形学习方法和4种过采样方法在TE 过程数据集,巴萨罗那水系统数据集和兴隆庄矿皮带系统过载故障数据集上的效果。实验结果说明相比于直接使用过采样的方法,流形嵌入算法确实可以提高生成数据的质量,进而提高分类器的分类性能。  2. 针对煤矿冲击地压灾害的识别问题,设计了一个半监督过采样框架。首先,使用主成分分析,线性判别分析等流形学习方法挖掘冲击地压灾害微震检测信号数据集的内在结构,进行特征提取,同时压缩原始数据集的数据量。其次,对特征空间的非平衡数据集进行过采样,构造平衡数据集。然后,使用半监督学习方法来为过采样生成的少数类样本添加更加可信的标签。最后,基于平衡数据集学习分类器。  3. 针对过采样方法在解决非线性非平衡数据集时存在的问题,结合局部线性嵌入这一经典的流形学习方法,提出了基于局部线性插值的过采样方法。与传统的少数类样本间插值的过采样方法不同,基于局部线性插值的过采样方法包括过采样和过采样数据添加标签这两个步骤。首先,借鉴局部线性嵌入的思想,使用中心样本点的k个近邻样本线性表达中心样本点,获得权重矩阵,保存观测数据集的结构信息。之后基于权重矩阵,使用线性插值的方法,获得整个数据集的新增数据。最后为新增样本添加标签。由于本方法基于原始数据集的数据结构进行过采样,在过采样时并不考虑数据的标签,因此可以同时对多类数据样本过采样。其次,由于考虑了数据集整体的结构信息,可以提高非线性数据集的过采样样本质量。最后,使用核函数的方法来进一步提升该方法的处理非线性过采样问题的能力,提出核化的局部线性插值过采样方法。在 UCI的4 个实验数据集上的实验证明了本方法的有效性。
其他文献
保持共产党员先进性,对于教育战线来说,一个最重要的体现就是办人民满意的学校。近年来,我校始终坚持把“办人民满意的学校”作为实践“三个代表”重要思想的出发点和落脚点,
1950—2020年,《金属加工》已走过70年的发展历程.70年来,杂志在各级领导、广大企业、读者、行业协会/学会的大力支持下,一路高歌,始终走在我国工业媒体发展的前列.值此《金
期刊
近日,“厦门大学微博协会”发布微博称,厦大将开设爬树课。在这门课上,可以学习如何安全爬上任何树,并在上面自由移动,甚至“在树木之间灵活穿梭”。
目的:评价咪唑安定用于上肢创伤病人行高位硬膜外阻滞的遗忘作用和相应的脑电变化.方法:选择40例单纯上肢创伤病人行高位硬膜外阻滞随机双盲分为四组:咪唑安定0.15mg/kg和0.1
本文介绍了蚁群算法的基本理论,探讨了该算法的数学模型及其实现,分析了它在解决优化问题时的优势和不足,并提出了一种改进的方法。改进的具体做法就是在保留其正反馈机制,易
工业和信息化部日前发布的《关于鼓励和引导民间资本进一步进入电信业的实施意见》鼓励民间资本开展移动通信转售业务试点、接入网业务试点和网络托管业务等;鼓励民间资本参与
夹砂玻璃钢管道作为一种新型复合材料管道,具有轻质、高强度、耐腐蚀、内壁光滑、流量大、不结垢、不留渣、不爆破、可靠性高、寿命长、造价低廉等优点,应用前景广泛,现已广
新中国建立以后,邵力子看到人民政府十分重视教育事业,教育由政府统筹兼顾,全面规划,这些都使他无比欣慰。他马上将自己从前创办的学校交给政府统一办理。并且为了繁荣祖国的
我在金切刀具技术攻关成功的案例中,其灵感和动力多源于一位无声老师——《金属加工》(原名《机械工人》).如图1所示,是我收集的部分《机械工人》杂志.她与祖国同岁,她与工人
期刊
由于成像设备自身成像原理及其固有的光学特性,使得Kinect深度图像存在各种误差,这些误差会限制高精度深度值的提取。为了改善深度图像的质量,获取高质量的深度信息以及形变