论文部分内容阅读
传统的分类算法在低维度的数据集上面能够获得比较理想的分类效果,但是在高维度的数据集上它的分类性能则会出现较大的下降。高维数据结构复杂,包含更多的非信息和噪声,随机森林算法采用了特征子空间来构建模型,所以构建的模型难免会混杂很多的噪音,而利用这些包含噪音的模型进行预测分类将会降低随机森林算法的分类效果。所以如何从众多的模型中选择适合的模型,使随机森林算法在低维和高维的数据集上都能拥有较好的分类性能成为本课题的重点研究问题。同样随着模型的增多,计算量也呈现指数值的增长,如何提高模型的构建以及预测速度,也是本课题的一个研究问题。针对随机森林的模型选择以及海量并行化的模型构建预测等问题,本课题进行了深入的分析和研究,主要的研究内容和研究成果如下所示:首先,在对随机森林算法的理论研究的基础上,归纳和阐述了目前常用的随机森林模型选择方法,并且详细地分析了这些方法的具体流程以及鲁棒性,同时也研究了基于MapReduce框架的分布式并行化方法;然后,提出一种基于马尔科夫链的随机森林动态模型选择方法,采用动态选择的方式,融合随机游走的马尔科夫链思想,将模型、训练样本集和测试样本分成三层,通过分类器的个体强度计算、分类器相互之间的相关性计算、每个测试样本与训练样本集的相似性计算以及加权投票模型选择四步来不断进行上层到中层(中层到上层)、下层到中层(中层到下层)以及同层到同层的循环迭代,最后实现随机森林的动态模型选择。根据不同的低维和高维数据集与常用的模型选择方法进行结果比较,证明了本方法在Out-of-Bag(OOB)误差、算法强度、平均相关度、泛化误差上界、分类准确率分类等五个方面的优势;接着,提出了基于MapReduce框架的随机森林并行化方法,通过对随机森林模型构建以及投票的并行化进行改进,提高了随机森林算法的运行效率;最后,基于以上的研究成果,本文设计并实现了基于马尔科夫链的随机森林动态模型选择及其并行化的原型系统。该系统包括数据输入、参数配置、模型选择、并行化调度接口等四个模块,包含了随机森林模型选择及其并行化方法的全部操作流程,其中模型选择模块成功地运用到了企业的数据挖掘平台中。