论文部分内容阅读
随机森林算法是机器学习领域中的一种集成学习方法,它通过集成多个决策树的分类效果来组成一个整体意义上的分类器。随机森林算法相比其他分类算法而言有诸多优势,分类效果上的优势体现在分类准确度高、泛化误差小而且有能力处理高维数据,训练过程的优势体现在算法学习过程快速而且易于并行化。基于这两大优势,随机森林算法得到了广泛的应用,已经成为处理分类问题优先选择的算法之一。然而,当数据类别分布不平衡的情形之下,也就是某一类别的样本实例的数量远远小于其他类别的样本数量的情况下,随机森林算法会出现分类效果不佳、泛化误差变大等一系列的问题。目前为止,针对随机森林分类不平衡数据这个问题,这方面的研究还不是很多,也没有直接的行之有效的方法。有的只是结合不平衡数据的一般处理方法来做,如采样技术或者代价敏感方法。所以从随机森林算法层面去改进不平衡数据的分类效果是一个很有意义的研究问题。本文也是从这个研究问题出发,深入分析随机森林影响分类效果的关键步骤,设计出能够较好的处理不平衡数据的解决方案。在本文中,通过研究不平衡数据分类方法和随机森林算法,提出了一种改进的应对不平衡数据分类问题的随机森林算法。主要是从随机森林的子空间选取和模型集成两方面来改进,本文的主要工作有:(1)提出一种基于装袋思路的集成特征选择方法,该方法是建立在基于相关性度量的特征选择算法的基础之上,这种集成特征选取方法加大了有利于正类样本分类的特征的选取概率,同时不会过多地剔除负类样本的有用特征。(2)采用基于分层抽样的子空间选择算法,对集成特征选择方法生成的特征子集进行分别采样,同时保证了特征的重要性和生成的模型的差异性。(3)提出了一种针对不平衡数据的新的树模型过滤方案,包括根据树模型分类强度以及树模型相似程度来做过滤,对树模型合集进行评估和重组,达到模型优化的目的。除此之外,论文也结合了数据层次的平衡化采样对算法的影响进行了有针对性的实验。最后,验证改进的随机森林算法在不平衡公共数据集上的分类效果,相比原始的随机森林算法,在大部分指标上(交叉验证的精度、AUC指标、Kappa系数以及F1-Measure指标)都有比较明显的提升。表明了子空间选择和模型优化对于随机森林算法的重要性。本文的研究内容对于指导不平衡数据的分类具有重要的学术意义和实用价值,能够应用到垃圾邮件检测、异常检测、医疗诊断、DNA序列识别等领域。