论文部分内容阅读
本文首先阐述不平衡数据学习的研究背景、现状和相关工作,以及模型评估与模型选择相关工作等。然后,围绕不平衡数据学习的解决策略,开展一系列研究工作,从不同角度探讨与不平衡数据学习相关的问题。本文研究内容和主要贡献包括以下几个方面:(1)提出一种基于Boosting技术和过采样技术融合的不平衡数据学习算法PCBoost。PCBoost算法分为权值初始化、数据合成、子分类器学习、子分类器集成学习等四个阶段。提出一种新的数据合成方法,在数据合成后训练子分类器,被子分类器错分的合成样例将被删除,从而起到扰动修正的作用。讨论并证明了PCBoost算法权值更新的规范性以及误差界和参数选择问题。与SMOTEBoost、DataBoost-IM等算法实验比较结果表明,PCBoost有处理不平衡数据的优势。(2)提出基于欠采样的不平衡数据分类算法。不平衡数据分类的关键在于有效地寻找分类边界,而只有处于边界附近的样例才对分类边界的寻找有贡献,基于上述思想,提出基于欠采样的不平衡数据分类算法。定义δ可去概念,判断多数类样例是否远离分类边界,并基于此对多数类样例进行欠采样,然后在欠采样数据集上训练分类器。(3)针对不平衡数据分类器评估,提出关注少数类准确度的性能评估度量加权AUC——wAUC。模型评估是数据挖掘的重要步骤,合理的性能评估度量能够保证选择最优的分类器,对于不平衡数据学习,其性能评估度量应关注少数类上的准确度,wAUC以真正率为积分变量,对ROC曲线下方面积加权,使得wAUC更加偏置于在少数类上取得更佳性能的分类器。(4)提出基于层次分析法构造多种度量或多种方法综合评价的模型选择框架。不同性能评估方法和度量侧重不同方面,因此,选择分类器的结果不尽相同。基于层次分析法的模型选择框架,集成多种性能评估方法和度量,综合考虑分类器在各个性能评估方法和度量下的性能指标,给出集成结果。这种基于层次分析法的模型选择框架参数是可调整的。本文针对不平衡数据分类问题,在过采样、欠采样、集成学习和模型评估等方面展开研究工作,分别取得相应研究成果,公开发表了相关论文。