论文部分内容阅读
不管是在真实世界获得的数据集,还是仿真平台获得的数据集都存在着大量的非平衡特性。非平衡意味着数据集中不同类别数据的数据规模存在巨大的差异,例如在一个数据集中多数类数据有1000条,而少数类的数据只有10条。这种非平衡特性会给后续的模式识别带来很大的困难,并且非平衡数据集在工业过程故障诊断的场景下非常常见。因此,对非平衡问题的关注与研究是很有必要的。 过采样算法是比较常见的一种解决非平衡问题的思路。其通过重新对观测数据集进行采样的方式,增加少数类样本的数量,将原先的非平衡数据集转换成平衡数据集,最后在平衡数据集上进行模式识别。但是先前大多的过采样方法并未考虑观测空间数据集数据间存在的非线性特性,而直接用线性插值的方法增加的少数类样本的方式,很可能会使得新增的少数类样本并不满足原始观测空间数据的真实分布特性。因此,本文将流形学习与过采样算法相结合,通过流形学习来发掘观测空间数据集的本质结构,之后基于这一本质的数据结构进行过采样,来提高非线性非平衡数据集过采样生成的少数类样本的质量。 1. 针对工业故障诊断中存在的非平衡问题,提出一个流形嵌入过采样框架。首先,验证了流形嵌入过采样这一框架所生成的少数类样本基本满足观测数据集的数据分布。然后,在这一框架中测试了6种流形学习方法和4种过采样方法在TE 过程数据集,巴萨罗那水系统数据集和兴隆庄矿皮带系统过载故障数据集上的效果。实验结果说明相比于直接使用过采样的方法,流形嵌入算法确实可以提高生成数据的质量,进而提高分类器的分类性能。 2. 针对煤矿冲击地压灾害的识别问题,设计了一个半监督过采样框架。首先,使用主成分分析,线性判别分析等流形学习方法挖掘冲击地压灾害微震检测信号数据集的内在结构,进行特征提取,同时压缩原始数据集的数据量。其次,对特征空间的非平衡数据集进行过采样,构造平衡数据集。然后,使用半监督学习方法来为过采样生成的少数类样本添加更加可信的标签。最后,基于平衡数据集学习分类器。 3. 针对过采样方法在解决非线性非平衡数据集时存在的问题,结合局部线性嵌入这一经典的流形学习方法,提出了基于局部线性插值的过采样方法。与传统的少数类样本间插值的过采样方法不同,基于局部线性插值的过采样方法包括过采样和过采样数据添加标签这两个步骤。首先,借鉴局部线性嵌入的思想,使用中心样本点的k个近邻样本线性表达中心样本点,获得权重矩阵,保存观测数据集的结构信息。之后基于权重矩阵,使用线性插值的方法,获得整个数据集的新增数据。最后为新增样本添加标签。由于本方法基于原始数据集的数据结构进行过采样,在过采样时并不考虑数据的标签,因此可以同时对多类数据样本过采样。其次,由于考虑了数据集整体的结构信息,可以提高非线性数据集的过采样样本质量。最后,使用核函数的方法来进一步提升该方法的处理非线性过采样问题的能力,提出核化的局部线性插值过采样方法。在 UCI的4 个实验数据集上的实验证明了本方法的有效性。