基于Spark的分类算法并行化研究与实现

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:eastwood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网已经深深的融入了人们的生活之中,人们的日常行为时刻产生着有用的数据,对这些数据的快速处理并获得有用的知识变得越来越重要。现在数据挖掘已经走向了云计算时代,云计算已经逐渐取代了传统的单机计算。通过使用基于云计算平台的数据挖掘方法,系统可以准确和快速的从海量数据中挖掘出有用的信息。数据挖掘中的分类算法是进行趋势预测和个性化推荐的有效工具。本文基于时下最流行的开源云计算平台Spark,对数据挖掘中的分类算法进行研究,并选取了分类算法中经典的K近邻算法重点研究,对算法进行改进和并行化,并基于Spark进行实现,然后搭建了Spark集群,进行了相应的实验。改进的K近邻算法主要是针对传统K近邻算法在训练阶段不做任何处理工作的弱点进行改进,通过在训练阶段对训练数据集进行分析,找出一些特征值,对训练集进行预处理,从而减少在分类阶段需要比较的训练集样本,从而达到提高算法运行速度的目的。然后针对Spark云计算平台对数据进行分片时使用默认值与计算节点数目不匹配的缺点,对程序进行优化。在默认分片情况下,数据分片数量和计算节点数目不匹配会导致计算资源不能充分利用,引起运算性能下降,所以本文对程序进行优化,针对计算节点的个数对分区数进行相应优化,使分区数保持为节点数的整数倍,从而提高计算资源的利用率,加快算法的运行速度。本文选取了UCI的机器学习数据集,并对其进行扩展以满足数据量的大小要求。实验中对比了单机条件下普通K近邻和改进的K近邻的算法效率和准确率,然后测试了基于Spark的改进的K近邻算法的加速比。通过对实验结果的分析,改进的K近邻算法和普通K近邻算法有同等准确率,并且效率有了较大的提升。
其他文献
<正>本刊讯5月16日,四川移动"中国(西部)云计算中心"迎来两岁生日。两年来,西云中心总投资达到了30亿元,园区占地面积约400亩,可建设机柜20000个,是目前西部规模最大、设备最
如今,在经济全球化的大背景下,自由贸易区在全球发展迅速。2010年中国-东盟自贸区正式建成,开启了中国和东盟双方全方位合作的新纪元。中国经济的快速发展在很大程度上依赖于
为研究苏云金芽孢杆菌(Bacillus thuringiensis)在不同温度、pH、多环芳烃(PAHs)质量下对蒽芘芴的降解性能,采用单因素实验和响应面分析结合的方法,以 PAHs 为唯一碳源,活性
中学生的环保认知意识和参与意识较强,但他们日常环境道德行为习惯表现却不尽如人意,存在着环境道德知与行的背离。这既有学校教育内部的原因,也有社会和家庭等外部原因。要培养
针对40W连续工作的线阵列半导体激光器激励源进行设计和研究,通过同步整流技术、软开关技术及负载点的高效理念,实现DC/DC转换电路的高效及恒流电路的高效,最终实现激励源的高效
福建外贸快速发展得益于充裕的人口红利所供应的劳动力资源,但是伴随着人口红利衰退的到来,老年抚养比和老年人口占比的趋势不断上升,福建外贸企业人力成本持续上升,出现“用
以Docker为代表的容器技术具有比虚拟机技术更加轻量和易于快速部署的特点,能够大幅降低云平台中的资源使用总量,提高应用分发部署效率。因此,基于容器的云计算平台迅速成为
<正>地铁组成城市现代交通体系的重要一环,其营运的效果好与坏直接关系到城市居民的日常生活以及城市的正常运转。地铁票制、票价体系的管理是地铁运营和管理的重要一环。目
物理名师职业倦怠的原因之一就是缺乏教学主张。教学主张是物理名师的专业智慧的体现。指出从教学主张内涵、特征入手,对物理名师教学主张凝练形成过程与凝练策略给予具体方