基于Spark的机器学习模型分析与研究

被引量 : 7次 | 上传用户:xiawei0018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在分布式计算为主流的时代背景下,基于MapReduce框架的分布式应用频繁的I/O操作使得它的效率和性能不能够得到完美的体现。基于RDD的Spark分布式计算框架能够将数据加载进内存,极大的适应了迭代式机器学习模型的特定需求。针对目前基于MapReduce设计实现的机器学习模型存在的问题(主要是MR的本质问题),研究了基于Spark的机器学习模型,主要包括KMeans聚类、ALS协同过滤。并且研究了基于Spark Streaming的在线机器学习模型。以下是文章的主要分析与研究内容简介:(1)文章基于Spark分布式计算框架设计并实现了并行KMeans聚类模型,并通过该模型在不同规模的MovieLens数据集上进行训练比对实验,结果表明,该并行KMeans聚类模型适合运行在分布式集群环境下,且并行化计算效率也有不俗的表现;其次通过repartition算子设计分片加载数据,优化并行方案,有效减少了模型的训练时间。(2)针对基于MapReduce框架处理海量数据实时响应能力较差的问题,设计并实现了基于Spark Streaming的在线计算模型进行大规模的KMeans聚类分析。该模型将整个过程分为数据接入、在线训练等模块,各模块通过数据流连通形成任务实体,提交到Spark分布式集群运行完成。通过比对分析实验和性能检测,验证了该在线KMeans聚类模型具有高吞吐、低延迟的优势,且集群运行状况良好。(3)ALS(最小二乘法)协同过滤推荐算法是通过矩阵分解进行推荐,它通过综合大量的用户评分数据进行计算,并存储计算过程中产生的大量特征矩阵。Hadoop的HA(高可用性)用来解决HDFS分布式文件系统的NameNode单点故障问题。Spark作为一种基于内存的新型分布式大数据计算框架,具有优异的计算性能。文章基于QJM(Quorum Journal Manager)构建了 HA下的Hadoop大数据平台,并在Spark计算框架基础上研究使用ALS协同过滤算法,实现基于ALS协同过滤算法在Spark上的并行化运行;通过和基于Hadoop的MapReduce思想的ALS协同过滤算法在Netflix数据集上的比对实验表明,基于Spark平台的ALS协同过滤算法的并行化计算效率有明显提升,并且更适合处理海量数据。
其他文献
奥林匹克运动会作为世界上规模最大、历史最久、知名度最高的节事盛会,其影响力早已远远超出了体育范畴,具有了政治、社会、文化和经济等多种影响。2008北京奥运会实现了中国
本文主要讲述20世纪初到20世纪80、90年代的中国和日本的海报设计变迁的过程。从表象的中日海报设计形式的差异入手,探讨造成这种差异的深层次的文化及社会因素。整篇文章贯
中国的遗产廊道蕴含的价值体现了中华民族源远流长的文化。进入21世纪以来,丝绸之路、京杭大运河、茶马古道等遗产廊道越来越受到社会各界的关注,迫切需要创新关于保护利用的
城市化进程的不断加快,推动了农村经济的快速发展,提高了农民生活水平但是也引发了诸多矛盾和问题。在现有的土地权利结构和制度框架下,农地保护状况不容乐观,农地面临着严峻
河南境内的大 汶口文化因素是大汶口文化在河南境内传播的结果。在公元前三千一二百年至公元前两千五 六百年,由于大汶口文化的人口增长,势力膨胀及中原原始文化的相对衰弱,部分
<正>USB 3.1作为下一代的USB传输规格,通常被称为"SuperS peed+",将在未来替代USB3.0。在规格发布一年之后,华硕一口气推出了十多款搭载USB3.1接口的主板,我们终于能够体验US
政府和市场在公共服务供给中的双重失灵,使学界开始反思“政府——市场公共服务二元供给模式”,并逐渐将目光投向不断成长扩大,并在社会各个领域发挥重要的作用的非营利组织
人力资源管理是组织管理的一项重要内容,其成功与否直接影响或决定组织目标的达成、组织效率的高低和组织的发展。在当代西方国家,随着组织内外环境的变迁、公共服务民营化改