论文部分内容阅读
现实应用中,数据的收集和标注需要耗费大量的资源,并且收集到的许多数据集是非平衡的。非平衡数据的分类在很多领域,如故障检测、医疗诊断、信用卡欺诈检测中具有十分重要的意义。传统的机器学习分类方法要求训练数据和测试数据必须满足独立同分布条件,并且很多建立在数据集是平衡的假设基础上。当训练数据和测试数据不满足以上假设条件并且有标注的数据数量稀少时,传统的分类学习方法因为标注数据稀缺和倾向于多数类分类的问题,难以构建可靠的模型。在这种情况下,迁移学习和非平衡分类就显得十分必要。本文结合数据的非平衡特性,从模型层面、数据层面和特征层面,完成了以下工作:(1)基于参数迁移的非平衡分类算法。针对训练数据和测试数据是非平衡数据且对应的参数空间不同的问题,给出基于参数迁移的非平衡分类算法。该算法从模型构建的角度出发,一方面解决了传统机器学习算法在非平衡数据集分类能力较差的问题,另一方面从模型上对齐训练数据和测试数据的参数空间,改进分类器的结构。该部分所提方法的核心在于构建一个转换矩阵,使训练数据和测试数据在训练过程中共享相同的参数空间,最终完成知识迁移的过程。该方法不仅在已有的公共实验数据集上有较好的分类性能,而且在实际生产应用中的矿山微震检测上表现良好。(2)基于实例迁移的非平衡分类算法。针对传统迁移分类学习方法无法在数据集是非平衡的场景下获得较高的分类评价性能,构造了一种对少数类样本错分敏感的权重方案。该方法旨在提高少数类样本在分类中的影响,在保证多数类分类准确率的同时,降低分类器对少数类样本的错分代价。同时,算法还引入了集成学习思想,通过分类评价指标动态的调整弱分类器的权重,最终获得鲁棒性强、分类评价指标高的非平衡数据分类器。一系列的在公共数据集和矿山微震数据集上进行的实验表明,该方法在所提场景下具有良好的分类表现。(3)基于特征迁移的非平衡分类算法。针对非平衡数据集中训练数据与测试数据特征分布差异较大的场景,给出基于特征迁移的非平衡分类算法。该算法给出了与数据集特征相关的特征贡献度和特征相似度的定义,动态的评价特征迁移的过程,通过减少冗余特征实现降低分类器神经网络的复杂度,减少源域样本和目标域样本特征分布的差异,使得最终分类器在准确率和其它各项性能评价指标上得到有效的提升。所提方法被应用到公共数据集和矿山微震检测中,验证了其有效性。该论文有图20幅,表16个,参考文献114篇。