面向高维数据的随机森林算法优化研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lijing202740
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、移动互联网、云计算及各种数据自动采集技术的迅猛发展,许多应用领域在迅速积累着大量的数据。当前实际应用产生的数据维度越来越高,如何挖掘和利用这些高维数据,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,已经成为新世纪信息技术发展的重大挑战。对于分类问题来说,受维度效应的影响,许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果。因此,必须研究新的分类方法或改进现有分类算法以应对高维或超高维数据分类应用需求。  随机森林是一种有监督的集成学习分类技术,其分类模型由一组决策树分类器组成,模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。多个不同对比研究表明,对于高维数据,随机森林的综合性能指标,如分类精度、算法效率等,明显优于其他单分类器和集成分类器。因此,随机森林技术近年来在生物信息、文本挖掘、图像分类等领域的应用越来越多,成为当前数据挖掘、机器学习和模式识别等领域的一个研究热点。然而,在面向高维复杂数据和超高维数据分类的实际应用中,已有的随机森林算法存在着建树方法单一、建树过程优化较少、分类性能偏低等不足。因此,随机森林算法有待提升精度,降低泛化误差的需求。  为此,本文针对随机森林算法在高维数据分类领域存在的四个关键问题,即目前随机森林算法在面向高维数据分类领域缺少一般性优化框架研究的问题、大多数随机森林算法的研究还局限于单一建树方法且建树过程优化较少的问题、随机森林算法在采用传统子空间抽样方法构建的超高维数据分类模型存在着分类性能偏低的问题、传统随机森林算法未对分类树进行区分导致分类性能差的分类树影响分类结果的问题。本文以Breiman随机森林模型构建思想为基础,提出了随机森林三维框架、混合树随机森林优化方法、属性加权子空间抽样随机森林优化方法、优树优选随机森林优化方法,为构建面向高维数据分类的高性能随机森林模型提供了新颖有效的优化方法。  本文的总体研究思路是针对随机森林算法在面向高维数据分类领域所存在的问题特性,在综合分析了现有的随机森林算法特点的基础上,以Breiman随机森林模型构建思想为基础,首先提出了随机森林三维框架,即随机森林算法可以按照训练数据集抽样方法、属性子空间抽样方法和决策树算法三个维度任意组合。该三维框架为进一步研究面向高维数据分类的随机森林优化方法奠定了基础,同时提供了优化空间。然后,基于随机森林三维框架,本文针对大多数随机森林算法的研究还局限于单一建树方法且建树过程优化较少的问题,通过引入林学研究中有关单纯林和混合林概念的设计思想,提出了混合树随机森林优化方法Hybridrandomforests,该方法有效地通过增加森林模型中分类树多样性的角度优化了随机森林模型的分类性能。再者,本文针对随机森林算法在采用传统简单随机子空间抽样方法所构建的超高维数据分类模型存在着分类性能偏低的问题,提出了属性加权子空间抽样的随机森林优化方法FWSSMrandomforests,该方法通过采用属性加权子空间抽样方法来改进了传统简单随机子空间抽样方法,使其能够有效地使用较小属性子空间在超高维数据上构建高性能的随机森林分类模型。最后,本文针对传统随机森林算法未对分类树进行区分导致分类性能差的分类树影响分类结果的问题,提出了优树优选随机森林优化方法TSMrandomforests,该方法从优选分类树模型的角度有效地改进了随机森林模型的分类性能。  本文提出的四个研究内容瞄准了随机森林算法在高维数据分类领域所存在问题的不同方面,并各有侧重。其中,本文提出的随机森林三维框架为扩展随机森林算法提供了优化空间。混合树随机森林优化方法的提出则从增加分类树多样性的角度解决了建树方法单一、建树过程优化较少的问题。属性加权子空间抽样的随机森林优化方法的提出完善了属性加权子空间抽样方法,解决了能够处理具有多类的超高维数据分类问题,并且该方法能够使用较小的属性子空间去构建高性能的随机森林模型。优树优选随机森林优化方法的提出则从随机森林模型全局优化角度解决了传统随机森林算法中存在分类性能差的分类树影响分类结果的问题。在一系列真实高维数据上的实验结果证实了这些优化方法的有效性。本文的研究成果将大力推动面向高维数据的随机森林优化方法领域的发展,并有望带动新的研究方向。同时,这些优化方法也将给高维数据分析的实际应用提供了更多的选择。
其他文献
随着世界范围内人口的膨胀和城市的发展,出现了越来越多人群密集的公共场所。这些场所在提供人们生活便利的同时,也为犯罪活动提供了地点。因此,公共安全是全世界面临的一个刻不
克隆代码进化研究以软件的多个版本为基础,通过克隆代码检测及跟踪来获取克隆代码进化信息。克隆代码进化研究对于了解克隆代码特征,维护和重构克隆代码、评价克隆代码有害性以
随着互联网的高速发展与不断普及,越来越多的敏感信息在互联网第三方站点上存储与共享,例如云存储和云共享。通常情况下,这些敏感信息并不是以加密的形式进行存储,对敏感信息
近年来,无线传感器网络(Wireless Sensor Network,WSN)相关技术取得了巨大的进步,被广泛应用于军事、医疗、环境等领域。然而,由于传感器节点常被部署在开放环境中,而且其资
近年来随着Android操作系统在各种电子移动终端设备中的迅速普及,数字电视机顶盒采用Android操作系统已经成为目前主流的发展趋势。电视机顶盒的人机交互操作主要依靠遥控器上
分级存储的设计初衷是将数据按访问热度的不同存储于不同性能的存储设备上,最大化存储利用率。当数据的热度发生变化时,便将数据迁移至更符合其当前热度值的存储设备上。因此,对
传统的编程技术无法模块化实现系统关注点,导致系统关注点的实现代码横切于多个代码模块中,因此这些关注点被命名为横切关注点。面向方面编程技术可以将这些横切关注点单独实现
多示例学习被认为是继监督学习,无监督学习和强化学习之后的第四类机器学习方法,它的出现为机器学习注入了新的活力,在图像处理、股票市场分析等领域有着广泛的应用前景。本文对
贝叶斯分类属于数据挖掘领域重要的分类方法之一,朴素贝叶斯分类是一种简单的贝叶斯分类方法,与其它分类方法相比,它的优点是简单、高速、分类效果稳定和理论基础坚实,因此也得到
无线传感器网络是由部署在监控区域内大量的传感器节点组成的无线多跳自组织网络。监测区域内的传感器节点通过相互协作,对目标事件的相关数据能够进行感知、采集、处理、传