基于Hadoop的决策树算法改进及林业数据分类预测研究

来源 :东北林业大学 | 被引量 : 5次 | 上传用户:mingxingc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问题的限制,而Hadoop的海量数据存储系统和并行化编程框架技术为处理海量数据的需求提供了一种有效的解决方案。我国的森林资源较为丰富,在多年的监测和整理后,森林资源的基础数据资料已经初具规模,其具有高维、噪声、量大等特点,而传统的林业数据分析手段在处理上也越来越乏力,已经无法满足林业的需求,急需引入一种科学的、高效的技术手段。基于以上,本文提出一种基于Hadoop平台的不确定概率C4.5 (Imprecise Probability C4.5, IP-C4.5)算法,可以对数据集的不可靠性带来的误差进行优化,并具有处理海量数据的能力。同时将改进的IP-C4.5算法引入林业应用,对森林成熟度、森林覆盖类型进行分类预测,从而对今后林业数据的分析开辟了一种新的模式。本文的具体研究内容如下:(1)选择了在实际应用中使用较多的C4.5决策树算法进行研究和改进,利用开源软件Weka提供的J48代码进行研究学习;改进的C4.5算法在选取分裂属性时,用基于不确定概率的信息增益率代替原有的信息增益率,这样会更加适合处理嘈杂的数据集。(2)研究了云计算技术,重点学习研究了Hadoop平台的文件系统HDFS以及并行编程框架MapReduce,结合传统决策树算法的算法模型,在计算属性选择度量时将数据集进行纵向划分,以一种基于文件分裂的方式对改进的算法进行并行化设计。在保证没有牺牲掉分类准确率为代价的前提下,使并行化的算法在处理海量数据时具有高效性及可扩展性。(3)林业数据具有高维性、噪音多、海量等特点,而改进的C4.5算法正适合处理嘈杂的数据,基于Hadoop平台的并行化程序又适合处理海量数据,所以,最后将设计好的程序应用于处理林业数据。实验从封闭和开放两个方面对一组林分小班数据集进行森林成熟度的预测,之后对来自UCI国际机器学习数据库的较大量的森林覆盖类型数据集Covertype建立决策树模型,预测森林覆盖的类型。实验结果表明,改进的算法在处理嘈杂数据时具有更高的准确率,同时并行化后的改进算法在分类精度上也没有损失,并且在处理海量数据时具有绝对优势,有着较为理想的加速比和效率;在林业数据分类预测方面,本文的算法有着更高的准确率和较好的时间优越性。
其他文献
随着越来越多的人参于网络内容的编辑,“分众分类”法也逐渐成为网络资源分类的重要方法。本文主要研究“分众分类”法的优缺点,对其缺点之中的“模糊性”进行了针对性研究,
随着Internet技术突飞猛进的发展,远程教育作为一种新型的教育模式在国内外得到了广泛的应用。虚拟实验室环境能让师生通过Internet进行近似于真实的实验教学活动,特别是针对
随着时代的发展,社会的不断进步,人类对通信的需要越来越大,对通信质量的要求也越来越高,通信网络已经在人们的工作、学习和生活中扮演着越来越重要的角色,这些都使得通信技术在不
在访问控制的三种策略中,基于角色的访问控制(RBAC)策略近些年来一直是研究的热点。相比较另外的两种访问控制策略:自主访问控制(DAC)与强制访问控制(MAC),RBAC具有更高的灵
近年来,网络的普及使得嵌入式系统被广泛的使用,越来越多地应用于各种领域(如手机,PDA,RFID等)。每天的生活中,一些嵌入式系统被人们用来处理一些敏感信息(如手机或PDA上的信
随着网络在人们工作和生活中的广泛应用,网络故障管理的重要性日趋显著。网络系统规模的扩大化以及结构的复杂化,使得网络管理和维护的难度进一步加大。网络中存在很多引发故
李群机器学习与深层结构学习是近年来倍受人们关注的新的机器学习方法,本文将这两种方法进行有机融合,给出了李群深层结构学习算法。主要包括以下几方面的内容:1)分析了李群
跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度
计算机视觉的不断发展使得人们对视觉应用的实时性要求越来越高,传统单核平台上的串行应用程序已不能满足人们的要求,多核平台的出现为该问题的解决带来了新的突破口,多核平
在现实世界中,存在着大量的含糊、不确定、不完全和模糊的信息。如何精确描述这些信息是科学研究中很重要的问题。当前,处理模糊信息的方法主要是建立在Zadeh提出的Fuzzy集的