Spark 2.0平台在大数据处理中的应用研究

来源 :软件导刊 | 被引量 : 0次 | 上传用户:jttzw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Spark分布式框架具有利用数据集内存缓存、启动任务的低迟延、迭代类运算、实时计算的支持和强大的函数式编程接口等特征。描述Spark集群环境的搭建过程,将Spark应用到预测森林植被中,对基于RDD和基于Data Frame接口的Spark随机森林算法的性能差异进行比较。实验结果表明,基于Dataset结构的随机森林法预测效果好、执行时间短,可以广泛使用。
其他文献
为有效阻滞海边垃圾填埋场污染物迁移,填充施工缝隙,提出通过制备团粒膨润土,提高膨润土的压实度,获取其低渗透、强吸附和适宜膨胀能力来改善这一现状.在团粒膨润土制备过程