基于 Dpark 的数据分析方法的性能研究磁

来源 :计算机与数字工程 | 被引量 : 0次 | 上传用户：zhucejuren2011

【摘要】

：

随着大数据时代的来临，以 Hadoop 和 Spark 为首的开源分布式计算框架主导着相关行业的事实标准。然而，无论是使用 Java 编写的 Hadoop ，还是使用 Scala 编写的 Spark ，使用及对

【作者】

：

马燕龙吴云

【机构】

：

贵州大学计算机科学与技术学院

【出处】

：

计算机与数字工程

【发表日期】

：

2004年期

【关键词】

：

Dpark 框架集群部署数据预处理 Dpark cluster deployment data preprocessing

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的来临，以 Hadoop 和 Spark 为首的开源分布式计算框架主导着相关行业的事实标准。然而，无论是使用 Java 编写的 Hadoop ，还是使用 Scala 编写的 Spark ，使用及对其进行二次开发的难度都比较大，而使用 Py‐thon 编写的分布式计算框架 Dpark ，具有继承自 Spark 的内存计算和惰性求值机制，结合 Python 的简洁语法，同时又配合分布式文件系统 MooseFS 、分布式数据库 Beansdb 和分布式资源调度框架 Mesos ，可以极大提高数据分析的工作效率。文章主要对比了传统 Python 程序和基于 Dpark 的 Python 程序在完成数据预处理工作上的运行效率，得出后者的性能和可扩展性至少优于前者数十倍的结论。

其他文献

奶牛皱胃右方变位诊断与治疗

随着养牛业的发展,奶牛皱胃变位作为一种常见的生产性疾病,不仅影响奶牛的产奶量,而且还影响好牛的生繁殖,严重威胁着养牛业的发展.由于该病的临床诊断较为困难,误诊和治疗不

期刊

奶牛真胃右方变位诊治

慢性阻塞性肺疾病并发气胸者患侧肺预后影响因素的临床分析附94例报告

目的探讨慢性阻塞性肺疾病(COPD)并发气胸者患肺复张的影响因素.方法观察不同气胸类型、患肺压缩范围、发病至行胸腔闭式引流术时间,CAT评分对患肺复张的影响.结果纳入11

期刊

慢性阻塞性肺疾病继发性气胸胸腔闭式引流术肺复张时间Chronic obstructive pulmonary diseaseSecondary pne

一种 TFT 模拟仿真与计算方法磁

随着显示行业的发展，AMOLED 技术成为目前的主流技术。其中的薄膜晶体管（TFT ）成为 AMOLED 显示质量的主要影响因素，阈值电压作为 TFT 性能的主要特征参数之一，其提取和计算方法至

期刊

AMOLED薄膜晶体管阈值电压提取ATLASEXCELAMOLEDTFTthreshold voltageextractionATLASE

一种基于 PFRFT 的低截获信号识别算法磁

针对低截获概率雷达信号的调制识别问题，提出了一种新的调制类型识别算法，完成了 LFM 、BPSK 、2FSK 、Frank／P1／P2／P3／P4码8种低截获信号的识别分类。首先，根据有无调频斜率，利用 PF

期刊

PFRFT脉内调制功率谱估计低截获信号PFRFTintra-pulse modulationpower spectrum estimationlo

基于 D-S 证据融合的发射机健康状态评估磁

针对雷达发射机健康状态评估在多种不确定性因素下的问题，构建了基于 D‐S 证据理论的多指标评估模型。基于综合考虑指标可测性，建立了新型的雷达发射机健康状态评估指标体系结

期刊

雷达发射机健康状态评估层次分析法D-S 证据理论radar transmitterhealth assessmentanalytic hierarc

低信噪比下基于 Keystone 变换的高速多目标检测磁

微弱多目标检测中，高速运动目标的跨距离单元走动会影响长时间相参积累的效果，论文提出了在低信噪比情况下通过 Keystone 变换校正多目标的跨距离单元走动，对所有脉冲相参积累达

期刊

微弱多目标检测Keystone 变换距离走动相参积累weak multiple targets detectionKeystone transform

基于 Linux 系统的构建高性能服务器的研究磁

研究了在 Linux 环境下构建高性能服务器的关键技术，Reactor ，Proactor 事件处理模式，处理并发访问量的并发模式，考虑到现代硬件技术的发展，以空间换时间的思想构建高性能服务器，在

期刊

高性能服务器技术事件处理模式并发模式线程池进程池technolgy of high performance serverevent handling

一种融合 CVSS 的信息安全终端安全评估模型磁

针对目前电力行业对于安全防护较弱、可控性较低的桌面终端、操作终端没有能够反映电力行业信息安全终端特征的评估方法，论文根据电力行业信息系统安全要求，以及桌面终端、操作

期刊

桌面终端操作终端CVSS脆弱性量化威胁量化desktop terminaloperation terminalCVSSvulnerability

云环境 MMM 数据库集群双主多从架构模型构建磁

随着湖南国家农村农业信息化示范省综合服务平台与农村物联网基础平台的运行，对农业大数据的操作与安全提出了新的要求。为了适应这一要求，针对 RedHat 与 MySQL 系统，提出一个

期刊

双主多从架构数据库集群读写分离负载均衡地址漂移master-master replication manager for MySQLdatabase

基于 ARM 的多模式智能控制嵌入式系统设计磁

多模式智能控制系统在远程智能家居控制、机电控制等领域具有较大的应用前景，传统的多模式智能控制系统采用 Android 嵌入式设计方法，对 I／O 接口的控制信号调理性能不好。提出

期刊

ARM智能控制嵌入式系统设计ARMintelligent controlembeddedsystem design

基于 Dpark 的数据分析方法的性能研究磁

其他学术论文