论文部分内容阅读
随着物联网、移动互联网、云计算及各种数据自动采集技术的迅猛发展,许多应用领域在迅速积累着大量的数据。当前实际应用产生的数据维度越来越高,如何挖掘和利用这些高维数据,使之转换为有价值的信息和知识,用于解决各种各样的科学和应用问题,已经成为新世纪信息技术发展的重大挑战。对于分类问题来说,受维度效应的影响,许多在低维数据上表现良好的分类方法运用在高维数据上时无法获得好的分类效果。因此,必须研究新的分类方法或改进现有分类算法以应对高维或超高维数据分类应用需求。 随机森林是一种有监督的集成学习分类技术,其分类模型由一组决策树分类器组成,模型对数据的分类是通过单个决策树的分类结果进行集体投票来决定最终结果。多个不同对比研究表明,对于高维数据,随机森林的综合性能指标,如分类精度、算法效率等,明显优于其他单分类器和集成分类器。因此,随机森林技术近年来在生物信息、文本挖掘、图像分类等领域的应用越来越多,成为当前数据挖掘、机器学习和模式识别等领域的一个研究热点。然而,在面向高维复杂数据和超高维数据分类的实际应用中,已有的随机森林算法存在着建树方法单一、建树过程优化较少、分类性能偏低等不足。因此,随机森林算法有待提升精度,降低泛化误差的需求。 为此,本文针对随机森林算法在高维数据分类领域存在的四个关键问题,即目前随机森林算法在面向高维数据分类领域缺少一般性优化框架研究的问题、大多数随机森林算法的研究还局限于单一建树方法且建树过程优化较少的问题、随机森林算法在采用传统子空间抽样方法构建的超高维数据分类模型存在着分类性能偏低的问题、传统随机森林算法未对分类树进行区分导致分类性能差的分类树影响分类结果的问题。本文以Breiman随机森林模型构建思想为基础,提出了随机森林三维框架、混合树随机森林优化方法、属性加权子空间抽样随机森林优化方法、优树优选随机森林优化方法,为构建面向高维数据分类的高性能随机森林模型提供了新颖有效的优化方法。 本文的总体研究思路是针对随机森林算法在面向高维数据分类领域所存在的问题特性,在综合分析了现有的随机森林算法特点的基础上,以Breiman随机森林模型构建思想为基础,首先提出了随机森林三维框架,即随机森林算法可以按照训练数据集抽样方法、属性子空间抽样方法和决策树算法三个维度任意组合。该三维框架为进一步研究面向高维数据分类的随机森林优化方法奠定了基础,同时提供了优化空间。然后,基于随机森林三维框架,本文针对大多数随机森林算法的研究还局限于单一建树方法且建树过程优化较少的问题,通过引入林学研究中有关单纯林和混合林概念的设计思想,提出了混合树随机森林优化方法Hybridrandomforests,该方法有效地通过增加森林模型中分类树多样性的角度优化了随机森林模型的分类性能。再者,本文针对随机森林算法在采用传统简单随机子空间抽样方法所构建的超高维数据分类模型存在着分类性能偏低的问题,提出了属性加权子空间抽样的随机森林优化方法FWSSMrandomforests,该方法通过采用属性加权子空间抽样方法来改进了传统简单随机子空间抽样方法,使其能够有效地使用较小属性子空间在超高维数据上构建高性能的随机森林分类模型。最后,本文针对传统随机森林算法未对分类树进行区分导致分类性能差的分类树影响分类结果的问题,提出了优树优选随机森林优化方法TSMrandomforests,该方法从优选分类树模型的角度有效地改进了随机森林模型的分类性能。 本文提出的四个研究内容瞄准了随机森林算法在高维数据分类领域所存在问题的不同方面,并各有侧重。其中,本文提出的随机森林三维框架为扩展随机森林算法提供了优化空间。混合树随机森林优化方法的提出则从增加分类树多样性的角度解决了建树方法单一、建树过程优化较少的问题。属性加权子空间抽样的随机森林优化方法的提出完善了属性加权子空间抽样方法,解决了能够处理具有多类的超高维数据分类问题,并且该方法能够使用较小的属性子空间去构建高性能的随机森林模型。优树优选随机森林优化方法的提出则从随机森林模型全局优化角度解决了传统随机森林算法中存在分类性能差的分类树影响分类结果的问题。在一系列真实高维数据上的实验结果证实了这些优化方法的有效性。本文的研究成果将大力推动面向高维数据的随机森林优化方法领域的发展,并有望带动新的研究方向。同时,这些优化方法也将给高维数据分析的实际应用提供了更多的选择。