基于 Dpark 的数据分析方法的性能研究磁

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户:zhucejuren2011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,以 Hadoop 和 Spark 为首的开源分布式计算框架主导着相关行业的事实标准。然而,无论是使用 Java 编写的 Hadoop ,还是使用 Scala 编写的 Spark ,使用及对其进行二次开发的难度都比较大,而使用 Py‐thon 编写的分布式计算框架 Dpark ,具有继承自 Spark 的内存计算和惰性求值机制,结合 Python 的简洁语法,同时又配合分布式文件系统 MooseFS 、分布式数据库 Beansdb 和分布式资源调度框架 Mesos ,可以极大提高数据分析的工作效率。文章主要对比了传统 Python 程序和基于 Dpark 的 Python 程序在完成数据预处理工作上的运行效率,得出后者的性能和可扩展性至少优于前者数十倍的结论。
其他文献
随着养牛业的发展,奶牛皱胃变位作为一种常见的生产性疾病,不仅影响奶牛的产奶量,而且还影响好牛的生繁殖,严重威胁着养牛业的发展.由于该病的临床诊断较为困难,误诊和治疗不
目的 探讨慢性阻塞性肺疾病(COPD)并发气胸者患肺复张的影响因素.方法 观察不同气胸类型、患肺压缩范围、发病至行胸腔闭式引流术时间,CAT评分对患肺复张的影响.结果 纳入11
随着显示行业的发展,AMOLED 技术成为目前的主流技术。其中的薄膜晶体管(TFT )成为 AMOLED 显示质量的主要影响因素,阈值电压作为 TFT 性能的主要特征参数之一,其提取和计算方法至
针对低截获概率雷达信号的调制识别问题,提出了一种新的调制类型识别算法,完成了 LFM 、BPSK 、2FSK 、Frank/P1/P2/P3/P4码8种低截获信号的识别分类。首先,根据有无调频斜率,利用 PF
针对雷达发射机健康状态评估在多种不确定性因素下的问题,构建了基于 D‐S 证据理论的多指标评估模型。基于综合考虑指标可测性,建立了新型的雷达发射机健康状态评估指标体系结
微弱多目标检测中,高速运动目标的跨距离单元走动会影响长时间相参积累的效果,论文提出了在低信噪比情况下通过 Keystone 变换校正多目标的跨距离单元走动,对所有脉冲相参积累达
研究了在 Linux 环境下构建高性能服务器的关键技术,Reactor ,Proactor 事件处理模式,处理并发访问量的并发模式,考虑到现代硬件技术的发展,以空间换时间的思想构建高性能服务器,在
针对目前电力行业对于安全防护较弱、可控性较低的桌面终端、操作终端没有能够反映电力行业信息安全终端特征的评估方法,论文根据电力行业信息系统安全要求,以及桌面终端、操作
随着湖南国家农村农业信息化示范省综合服务平台与农村物联网基础平台的运行,对农业大数据的操作与安全提出了新的要求。为了适应这一要求,针对 RedHat 与 MySQL 系统,提出一个
多模式智能控制系统在远程智能家居控制、机电控制等领域具有较大的应用前景,传统的多模式智能控制系统采用 Android 嵌入式设计方法,对 I/O 接口的控制信号调理性能不好。提出