基于随机森林的不平衡数据分类方法研究

被引量 : 0次 | 上传用户:coolgirl518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随机森林算法是机器学习领域中的一种集成学习方法,它通过集成多个决策树的分类效果来组成一个整体意义上的分类器。随机森林算法相比其他分类算法而言有诸多优势,分类效果上的优势体现在分类准确度高、泛化误差小而且有能力处理高维数据,训练过程的优势体现在算法学习过程快速而且易于并行化。基于这两大优势,随机森林算法得到了广泛的应用,已经成为处理分类问题优先选择的算法之一。然而,当数据类别分布不平衡的情形之下,也就是某一类别的样本实例的数量远远小于其他类别的样本数量的情况下,随机森林算法会出现分类效果不佳、泛化误差变大等一系列的问题。目前为止,针对随机森林分类不平衡数据这个问题,这方面的研究还不是很多,也没有直接的行之有效的方法。有的只是结合不平衡数据的一般处理方法来做,如采样技术或者代价敏感方法。所以从随机森林算法层面去改进不平衡数据的分类效果是一个很有意义的研究问题。本文也是从这个研究问题出发,深入分析随机森林影响分类效果的关键步骤,设计出能够较好的处理不平衡数据的解决方案。在本文中,通过研究不平衡数据分类方法和随机森林算法,提出了一种改进的应对不平衡数据分类问题的随机森林算法。主要是从随机森林的子空间选取和模型集成两方面来改进,本文的主要工作有:(1)提出一种基于装袋思路的集成特征选择方法,该方法是建立在基于相关性度量的特征选择算法的基础之上,这种集成特征选取方法加大了有利于正类样本分类的特征的选取概率,同时不会过多地剔除负类样本的有用特征。(2)采用基于分层抽样的子空间选择算法,对集成特征选择方法生成的特征子集进行分别采样,同时保证了特征的重要性和生成的模型的差异性。(3)提出了一种针对不平衡数据的新的树模型过滤方案,包括根据树模型分类强度以及树模型相似程度来做过滤,对树模型合集进行评估和重组,达到模型优化的目的。除此之外,论文也结合了数据层次的平衡化采样对算法的影响进行了有针对性的实验。最后,验证改进的随机森林算法在不平衡公共数据集上的分类效果,相比原始的随机森林算法,在大部分指标上(交叉验证的精度、AUC指标、Kappa系数以及F1-Measure指标)都有比较明显的提升。表明了子空间选择和模型优化对于随机森林算法的重要性。本文的研究内容对于指导不平衡数据的分类具有重要的学术意义和实用价值,能够应用到垃圾邮件检测、异常检测、医疗诊断、DNA序列识别等领域。
其他文献
高中物理静摩擦力在教学中是个难中之难的内容,静摩擦力的教学是个循序渐进的过程。教学中要建立好静摩擦力概念,引导学生形成解决静摩擦力问题的程序性方法。同时要引导学生
在近距离煤层群下行开采的过程中,下部煤层的顶板受到上部煤层开采所产生的动压损伤,而且上部的遗留煤柱在底板形成集中压力,破坏了原岩应力状态,使得底板应力重新分布,下部煤层的
通过观察实验和动手实验,培养学生的动手能力、观察能力、分析推理能力、归纳总结能力,提高学生运用已有知识分析和解决新问题的能力。
本文根据1990-2007年《中国地震年报》中同时给出Ms和ML、且震源深度〈70km的6577个浅源地震资料,经统计回归得到了全国和各地震区Ms与ML之间的经验关系。新的震级转换关系接
介绍了曼瑟尔.奥尔森在《集体行动的逻辑》中使用的研究方法以及他对传统集团理论的批评和对"搭便车"现象的分析。认为影响个人在集体中的行为的因素主要是经济激励、情感需
要在语文教学过程中,加强学生自主的语文实践活动,引导他们在实践中主动地获取知识,形成能力。就要注重学生个体差异,满足不同程度学生对语文学习的需求,开发他们的潜能,发展
本文从学生职业教育技能培养要求和培训途径入手,以能力本位的职业教育理论为指导,提出了系统建构学前教育专业学生技能训练体系,是培养学前教育专业专科层次应用型专门人才
公务员职业道德是社会主义道德体系的一个重要组成部分,是公务员在行使公共权力、从事公务活动过程中,通过内化的信念和善恶标准,理性调节个人与个人、个人与社会之间各种关系的
作为闽派服装发源地的石狮,经过多年的发展,在区域内逐步聚集并形成了具有一定规模,涵盖完整产业链的区域产业集群。随着市场竞争的加剧,石狮服装产业集群在专业分工、成本控制、
对话活动与课堂教学具有天然的联系,课堂教学因为有了对话活动才得以顺利的进行,对话活动因为发生在课堂教学之中才显示出其在特定环境中独特的存在意义。教学本身就是一个对