基于Spark的分类回归树算法并行性研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qingcongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术与信息化技术的发展,信息化与现代化在社会各行各业都得到了极大的普及与覆盖,而这些信息化的普及给各行各业带了一个最大的问题就是数据呈指数级增长。为了充分利用这些数据,数据挖掘技术随之迅速发展。分类技术是数据挖掘的一种重要手段,也得到了广泛的发展。  决策树分类技术是分类技术的一个重要的分支,本文主要对决策树分类技术进行了深入的研究,详细介绍了决策树分类技术的一些关键概念、决策树的处理过程、决策树技术主要的研究内容等。决策树主要的研究内容包括:数据预处理技术、分割属性的选取策略、决策树的剪枝、决策树的并行化和增量式决策树。其中,属性的选取标准是决策树最关键的研究内容,不同的决策树之间最大的区别就是属性选取标准的区别。  本文还详细的介绍了CART这一决策树算法,包括其属性选取的标准、两种不同类型的属性(离散型属性和连续型属性)的不同处理方式以及其剪枝算法等,然后以示例的方式详细地描述了 CART算法的“建树”和“剪枝”两个重要的处理流程。  本文还对Spark分布式处理框架进行了研究,详细的介绍了Spark分布式处理框架的特点以及其与Hadoop分布式处理框架的不同之处。本文还列举了Spark在国内外大公司的成功使用案例。  本文还分析了CART决策树算法的不足之处,并以此提出了自己的改进,包括对CART算法的并行化改进以及减少不必要计算量的改进;同时,我们还结合Spark这一种新兴的分布式处理框架来对我们CART算法进行了另一种的并行化改进。  最后,本文还介绍了我们搭建的Spark集群环境,并且也描述了我们的实验过程与实验步骤,然后我们再通过实验来验证我们对 CART算法改进的有效性,实验证明我们的改进能够有效的提高CART算法的计算效率。
其他文献
目前,兵器工业某研究所自然环境试验中心对材料表面腐蚀特征进行共享和管理主要是通过文本检索的方法。文本检索方法受人的差异和经验等因素的影响,首先,难以保证检索结果的
软件工作量估算对软件开发项目起着至关重要的作用,是项目计划和控制的基础,是保证软件开发顺利完成的重要手段。随着机构公司对项目管理要求的不断提高,软件工作量估算也越
语音识别技术近年来取得了长足的发展,伴随着计算机和手机等体积小巧的便携式设备的普及,尤其是进入网络时代以后,各种基于语音识别的应用不断涌现。特别的,孤立词识别作为语
基于视频图像序列的运动目标检测与跟踪是计算机视觉领域的一个重要研究课题。本文的主要研究内容为基于光流的运动目标检测算法。光流场携带了有关物体运动和三维结构的丰富
随着计算机网络通信、云计算、分布式处理以及多媒体等技术的飞速发展,越来越多的用户依赖网络传输和处理信息,而数字图像信息以其生动直观的特点被广泛使用,但是图像内容信
中医药语言系统(Traditional Chinese Medical Language System TCMLS)是世界上规模最大,数据最全的领域本体之一,在中医药科研和应用的多个领域发挥着重要的推动作用。但是,
用户对Deep Web站点的访问主要是通过其在Web页面中提供的具有特定查询能力的接口来获取所需要的结果。为了帮助用户简单高效的查找Deep Web信息,就必须提供统一的查询接口,
运动目标的检测与跟踪是机器视觉领域的核心课题之一,目前被广泛应用在视频编码、智能交通、监控、图像检测等众多领域中。本文对基于时域空域信息相结合的运动目标检测方法
随着微电子技术、计算机技术和无线通信技术的飞速发展和日益成熟,无线传感器网络(WSNs)的应用越来越广泛,逐渐被应用于军事、环境监测、交通控制等多个领域。但是数据传输延
在计算机图形学领域,大规模自然景观的建模和渲染是一个重要的研究课题。大规模草丛场景作为自然场景的重要组成部分,其建模和实时渲染技术也一直是众多学者的研究热点。但是