基于Hadoop的决策树挖掘算法的研究

被引量 : 2次 | 上传用户:lixinlixin2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,我们所面对的是一个逐渐开启的大数据时代。云计算与数据价值相辅相成,云计算技术趋于成熟为数据挖掘开辟了新的方向,大数据隐藏在深层次的宝贵价值推动着云计算技术的快速进步。数据挖掘算法对数据加工处理后,挖掘隐藏的数据价值,这有助于企业在这些数据价值基础上做出重大决策,促进社会的发展。但目前的常规挖掘算法在处理大数据时性能不高。将其结合当前炙热的云技术进行改进可较好适用大数据的处理,挖掘数据价值。Hadoop云平台的核心组成部分为HDFS和M apReduce,它是基于Java的分布式开源系统框架。底层的HDFS提供了具有高容错、高吞吐率的文件存储读写服务;MapR-educe模型的特性是将系统底层实现透明化,用户只需关注于应用程序。Hadoop提供的大数据存储平台和并行化计算平台,为传统数据挖掘算法能够处理大数据提供了基础。本文首先对云计算技术和数据挖掘技术的国内外现状进行探究,在此基础上,对当前的成熟的云计算平台进行研究分析的基础上,详细分析了Hadoop平台的关键技术HDFS文件系统和MapReduce编程模型。然后,较为深入地研究当前数据挖掘算法的详细情况,特别对目前成熟的决策树分类算法展开分析。接着本文论述了典型的决策树分类算法SPRINT算法和分类算法框架RainForest的原理,在此基础上,提出了SPRINT算法基于RainForest框架的优化算法RSPRINT,并通过实验进行验证优化的效果,实验表明IRSPRINT算法较于RainForest框架,有更好的伸缩性,即有效减少了算法在建树时的耗费时间。但在试验中我们发现IRSPRINT算法在处理一定大数据量时,其时间耗费优化效果不明显,我们通过分析IRSPRINT算法的并行性,提出了IRSPRINT算法在Hadoop平台上并行化算法HIRSPRINT,以进一步增加算法的扩展性,并用实验验证HIRSPRINT算法的改善效果和其并行化效率。实验结果表明,当数据量增加到一定值时,HIRSPR NT比IRSPRINT算法在时间耗费上有了明显的改善,而且随着并行节点数的增加有较好的并行化效率,即在Hadoop平台上拥有比较高的加速比。总而言之,本文有效的减少了SPRNT算法构建决策树的时间,并且能够有效处理海量数据,有效的提高了决策树算法处理大数据的能力。
其他文献
随着我国保险市场对外开放步伐的加快,国内保险市场竞争主体的日益增多,实行与国际接轨的保险评级制度已势在必行,这既是保险企业建立竞争优势和保证持续、健康发展的内在要
阐述综合试验船的设计要求、船型选择、型线优化设计、船模试验研究及实船航行试验 .通过对多方案的船模试验结果的分析比较 ,设计了一个满足任务书要求的船型 .模型试验分析
Web服务环境的开放性、欺骗性和不确定性等特征,导致服务交易双方风险增大,因而构建有效的信任管理机制是降低交易双方风险的至关重要的因素.但是,当前基于安全凭证和反馈信
<正>电子节气门系统出现故障后,ECU就会储存故障代码,同时切断电磁离合器和节气门电机的电源,使节气门电机与节气门分离,节气门在回位弹簧作用下回到关闭状态,尔后节气门开度
<正>有关研究表明,一台多缸汽油发动机,若有一只火花塞不工作,则可能增加10%~15%的油耗,功率下降18%~35%,尾气排放中的一氧化碳、碳氢化合物含量成倍地增加,启动性能下降。因
针对网络流量发生异常时产生的突变特征,提出了一种基于突变级数的网络流量的异常检测方法.该方法首先计算网络流量的特征量,选择其中能显著性反映网络流量自相似性、非线性
应用MSC .Marc软件对某发电厂干煤棚网架结构建立了空间网格结构的有限元模型 .基于该模型和干煤棚的实际工作状态 ,研究火电厂干煤棚网架在风载荷、雪载荷、温度等各种正常
基于PLCopen标准,结合PLC(可编程逻辑控制器)编程和运动控制编程,设计并实现了一种运动控制器.此运动控制器采用PLCopen标准定义的功能块模块模型,一方面达到了PLCopen标准定
从现实及理论意义出发,中小企业成长性评价应该成为学术界今后一段时期的研究重点,为此,必须构建中小企业成长性评价机制的理论框架。从研究的可行性与紧迫性出发,应建立起中
本文针对二外日语教学的特点,利用颜色词的认知语义为切入点,通过实验教学步骤的具体实施,探索如何通过语言对比教学达到良好的教学效果,以达到有效提高二外日语教学效果的研