基于Spark的大数据挖掘技术的研究与实现

被引量 : 0次 | 上传用户：xuhonghuo

【摘要】

：

大数据和大数据分析是目前IT领域里最炙手可热的概念,大数据具有3V的特点:数据规模大；((1)Volume:处理要求快,实时性要求比较高；(2)Velocity:数据有丰富的多样性。为了让数据产

【作者】

：

李文栋

【发表日期】

：

2015年期

【关键词】

：

大数据 Spark 分布式协同过滤 Apriori

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据和大数据分析是目前IT领域里最炙手可热的概念,大数据具有3V的特点:数据规模大；((1)Volume:处理要求快,实时性要求比较高；(2)Velocity:数据有丰富的多样性。为了让数据产生更大的价值,就需要选择一个高效的大数3) Variety:据处理平台来对其进行相应的分析。Spark是适用于大数据的高可靠性、高性能分布式并行计算框架。目前在国内外,已经有很多公司在实际生产环境中广泛使用比如国外的谷歌、亚马逊,易贝、雅虎等公司和国内的淘宝,百度,华为,Spark,优酷土豆等公司。尽管在实际的工业生产和实践中已经有了广泛的使用,但是受限于其诞Spark生时间较晚、版本较新等因素。现阶段,使用Spark框架在有些具体大数据应用场景下进行挖掘和分析时,需要结合其原有模块并改写和添加一些功能,才能更好的发挥其作用。而在解决个别大数据挖掘问题时,框架目前还没有相应的功Spark能。比如分布式机器学习库MLlib里没有解决关联规则问题的分布式机器学习算法。本文的主要工作为：(1)构建本文的实验测试环境,将集群部署在Spark上,即搭建一个由单个Yarn节点和多个Master节点构成的Worker集群,集群使Spark用的操作系统为在集群上对本文中的实验数据,算法和系统进行验证和测Lin ix。试。为更方便的进行应用程序的开发和测试,搭建单机Spark编码环境IDEA,Scala在单机模式下进行应用程序的编码和初步调试,并生成能够在集群上运行的jar包。(2)为了在大数据生产场景下实现分布式协同过滤推荐,本文使用语言和Scala、Python、 Java并调用Spark RDD中的相关模块,实现分布式协同过滤推荐,MLlib并进行电影推荐。本文实现的分布式并行协同过滤推荐,是基于模型的推荐系统,获取最佳参数下的模型,用其进行预测测试集的评分和给用户进行推荐。在测试和验证实验结果时,选用经典的大电影数据集(3)为了在大规模数据:MovieLens。处理场景下实现关联分析,本文主要借助语言和Scala的分布式算子对Spark RDD经典的法进行分布式并行编码处理,并在分布式集群上部署和运行,使Apriori 算用chess大数据集在Spark集群上进行测试和验证,和Java语言编写的单机Apriori算法进行运行效率和结果的比较。本文所做的贡献为：(1)实现了将Spark集群部署在Yarn上,支持对集群规模进行扩充和调优。(2)提供了协同过滤推荐在分布式集群上并行运行的实现方案。(3)对Spark MLlib分布式机器学习库中没给出的关联分析问题的分布式算法提出了解决方案,即在分布式集群实现了并行Apriori算法。为协同过滤和关联分析类问题在大数据背景下的使用提供了可行的解决方案,以此丰富和提高了Spark框架在具体应用场景下的大数据挖掘能力。

其他文献

消栓通络方有效成分组活血化瘀作用机制研究

活血化瘀是我国传统医学中的重要内容,是历代医学家临床实践的结晶。因祖国医学“气滞血瘀”、“血行失度”之病因病机而立,以“疏通血瘀、祛除瘀血”为要,具有祛瘀生新,以通

会议

有效成分组消栓通络方高通量筛选活性化合物作用机制

不同强度低频重复经颅磁刺激对脑卒中后上肢运动功能障碍的疗效

目的：探讨不同强度低频（1 Hz）重复经颅磁刺激（rTMS）刺激健侧大脑半球M1区对缺血性脑卒中偏瘫患者上肢运动功能康复的效果。方法2014年12月-2015年12月，60例缺血性脑卒中后上肢偏瘫

期刊

脑卒中重复经颅磁刺激运动上肢康复

楚简帛文字研究

本文是一篇基於楚简帛文字構形系统调查的研究論文。在對楚簡帛文字逐個造行構件分析的基研上,本文對該文字系统中的形聲字從其字量、字频、構件屬性等角度作了初步的考察和

学位

楚简帛文字构形系统形声字形符声符谐声系统

一位三线城市创业者的独白

<正>江西南昌三四线城市的互联网创业者们,管张小龙叫"祖师爷"大年初三,南昌699文化创意园格外空荡、安静,我和老哈从阿里巴巴电子商务大楼后门,进了他的办公室。4年前认识老

期刊

三线城市本地生活服务文化创意园微信公号图片社交张小龙

PP/EOR合金的可控膨胀及光(热)致变形研究

通过在聚丙烯（PP）基体中填充（乙烯／辛烯）共聚物（EOR），采用调控粘度比和改变成型加工方法制备了相同组分下线性热膨胀系数（CLTE）各异的PP／EOR合金，利用注射成型工艺将两种CLTE差异极大的材

期刊

聚丙烯(乙烯/辛烯)共聚物合金低膨胀光(热)致变形

双罐恒压供水电气系统的设计

详细介绍了双水罐轮换恒压供水的电气控制系统方案设计和实施；阐述了由西门子S7-200 PLC、EM235模拟量模块、MM420变频器、北京昆仑通态MCGSTpc7062K所组成的电气控制系统可实

期刊

双水罐恒压供水PLC变频器远距离中央监控

燕麦与强身燕麦片

燕麦是一种古老的粮食作物,在我国西北、内蒙古自治区、东北一带牧区或半牧区栽培较多。在调查中,燕麦产区人群的冠心病发病率较低的特点,引起了我国保健食品科技工作者的关

期刊

燕麦片亚运会疗效食品

56例气管内膜结核诊治分析

<正>目的:探讨支气管内膜结核的临床表现、影像学特点、支气管镜下表现及治疗方法,提高对该病的诊治水平。方法:用数据分析2007.1--2008.12天津市海河医院收治的56例支气管内

会议

公路路基的病害及处理办法的研究

公路路基是公路的基础,公路路基的稳定性直接关系到最终公路的质量。但是随着工程的不断发展,各种地质环境下都要修建公路,保障地基质量的难度也在逐渐的加大。因为设计和施

期刊

公路路基病害处理办法研究

《公路交通科技·应用技术版》征稿简则

<正>《公路交通科技·应用技术版》是由中华人民共和国交通运输部主管,交通运输部公路科学研究院主办的中央级期刊,定位于公路交通领域应用技术方面的宣传报道,核心是应用技

期刊

公路交通科技《公路交通科技·应用技术版》交通运输部

基于Spark的大数据挖掘技术的研究与实现

与本文相关的学术论文