论文部分内容阅读
互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问题的限制,而Hadoop的海量数据存储系统和并行化编程框架技术为处理海量数据的需求提供了一种有效的解决方案。我国的森林资源较为丰富,在多年的监测和整理后,森林资源的基础数据资料已经初具规模,其具有高维、噪声、量大等特点,而传统的林业数据分析手段在处理上也越来越乏力,已经无法满足林业的需求,急需引入一种科学的、高效的技术手段。基于以上,本文提出一种基于Hadoop平台的不确定概率C4.5 (Imprecise Probability C4.5, IP-C4.5)算法,可以对数据集的不可靠性带来的误差进行优化,并具有处理海量数据的能力。同时将改进的IP-C4.5算法引入林业应用,对森林成熟度、森林覆盖类型进行分类预测,从而对今后林业数据的分析开辟了一种新的模式。本文的具体研究内容如下:(1)选择了在实际应用中使用较多的C4.5决策树算法进行研究和改进,利用开源软件Weka提供的J48代码进行研究学习;改进的C4.5算法在选取分裂属性时,用基于不确定概率的信息增益率代替原有的信息增益率,这样会更加适合处理嘈杂的数据集。(2)研究了云计算技术,重点学习研究了Hadoop平台的文件系统HDFS以及并行编程框架MapReduce,结合传统决策树算法的算法模型,在计算属性选择度量时将数据集进行纵向划分,以一种基于文件分裂的方式对改进的算法进行并行化设计。在保证没有牺牲掉分类准确率为代价的前提下,使并行化的算法在处理海量数据时具有高效性及可扩展性。(3)林业数据具有高维性、噪音多、海量等特点,而改进的C4.5算法正适合处理嘈杂的数据,基于Hadoop平台的并行化程序又适合处理海量数据,所以,最后将设计好的程序应用于处理林业数据。实验从封闭和开放两个方面对一组林分小班数据集进行森林成熟度的预测,之后对来自UCI国际机器学习数据库的较大量的森林覆盖类型数据集Covertype建立决策树模型,预测森林覆盖的类型。实验结果表明,改进的算法在处理嘈杂数据时具有更高的准确率,同时并行化后的改进算法在分类精度上也没有损失,并且在处理海量数据时具有绝对优势,有着较为理想的加速比和效率;在林业数据分类预测方面,本文的算法有着更高的准确率和较好的时间优越性。