论文部分内容阅读
近年来,不平衡数据分类已成为数据挖掘领域的重要研究问题之一。数据不平衡是指数据集的各类别样本在数量上相差悬殊,其中样本数量少的类称为少数类,样本数量多的类称为多数类。传统的分类算法在处理平衡数据分类问题时,通常能够有效发挥性能优势,然而在处理不平衡数据分类时,对少数类样本的分类正确利率通常低于多类样本的分类正确率。在很多实际应用中,例如欺诈诊断、故障检测、文本检测、垃圾邮件过滤等,通常更关注少数类样本分类的准确率。因此,研究如何提高分类器对不平衡数据分类性能和提高分类器的泛化能力具有重要价值和现实意义。为了提高不平衡数据分类的分类性能,人们在传统分类算法的基础上做了很多改进。这些改进主要集中于两个层面:数据层面和算法层面。数据层面主要是对数据集样本的重采样,通过改变数据集的分布特点使之变得类别间基本平衡,然后采用传统的分类算法进行分类。如随机过取样、SMOTE算法、单边取样算法等。算法层面是保持原有数据的分布特点,通过修改算法内部结构使之能够适应不平衡数据分类。如基于代价敏感度学习的分类方法、改进的SVM、集成学习算法等。在上述改进算法中,集成学习能够表现出很好的分类性能和较强的泛化能力。通过对单个分类器进行改进和协调各个基分类器之间的差异性能够进一步提高集成学习的分类性能的主要因素。基于以上考虑,本文进行了如下几方面工作:1.在数据层面,分析并总结了取样算法单边取样和SMOTE过取样算法,针对SMOTE算法存在的问题,提出了一种改进的SMOTE算法。2.在算法方面,研究并分析了集成学习解决分类问题的优势以及影响其分类性能的因素,提出了一种新的解决不平衡数据分类问题的集成框架2D-SEFrame。3.研究了多类分类的常用策略,并将2D-SEFrame扩展到多类不平衡数据分类问题中,提出了针对多类不平衡数据分类问题的继承学习框架MC2D-SEFrame。4.将MC2D-SEFrame应用到了实际数据心电信号分类问题中,实验结果表明,所提出的算法能够取得很好的分类效果。