基于Spark平台的数据立方体快速计算方法研究

来源 :华北电力大学 | 被引量 : 0次 | 上传用户:johnchen1001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据的组织和分析日益成为各行各业发展瓶颈,对实时数据高性能分析需求的不断提高,传统联机分析处理处理大数据时表现出实时响应能力差的问题,为联机分析处理系统提出了更高的应用要求。Spark是分布式内存计算框架,具有轻量级快速处理、兼容Hadoop生态系统、学习成本低、活跃的社区支持、支持多种语言编程接口等特点,自Spark发布以来得到广泛应用,为实现实时OLAP系统数据分析提供了新的研究思路。本文首先总结大数据背景下联机分析处理的研究现状,随后对当前较为流行的大数据处理平台进行总结,结合实时OLAP系统的快速响应的应用需求,选择基于Spark平台进行系统架构,展开相关研究工作。本研究综合分析Spark内存并行计算框架、BloomFilter算法与BUC算法的基础上,着力研究立方体快速计算算法。针对BUC算法在Spark计算框架下进行并行化,并对BUC算法进行改进,以适应分布式计算方式,有效地提高了立方体计算效率。对于星型连接算法,实现了基于多维BloomFilter的星型连接算法,以适应数据量很大的表之间的连接操作。通过性能对比分析,验证了所提方案适合在大数据背景下进行快速立方体计算任务。本研究结果提高了联机分析处理的立方体计算速率和实时分析,是Spark平台在联机分析处理领域的一次有益尝试。
其他文献
桥梁桩基的施工质量尤为重要,为了确保桥梁桩基建设的质量和安全,在加强常见问题防范的同时,还要对桥梁桩基施工过程中出现的问题及时解决处理。本文针对市政工程中桥梁桩基
本文采用逻辑增长(Logistic)模型确定区域物流业与区域经济增长之间的数量关系,并以三大经济圈为例,利用边际分析和弹性分析计算出三大经济圈物流业的单位增长带来的区域经济
党的十九大报告指出,当前我国经济"正处在转变发展方式、优化经济结构、转换增长动力的攻关期,建设现代化经济体系是跨越关口的迫切要求和我国发展的战略目标",首次提出了"现
本报讯(记者王翔)2月5日,全市党建带团建暨村级团组织集中换届工作推进会召开。市委副书记、政法委书记、群工部部长崔永斌出席会议并讲话,市委常委、组织部长郭建英主持会议。$$
报纸
<正>实现对国家权力的科学管理,是古今中外政治领域的核心问题。国家权力是用来管理国家的,但国家治理的现代化程度则取决于对国家权力的管理水平。正因为如此,党的十八届三
<正>目的通过对我院中药处方进行分析,了解我院中药处方和中药临床使用存在的问题,为指导中药房工作和中医临床用药提供参考。方法随机抽查我院1月至12月1200张中药处方,对处
会议
对先正达公司用药方案20%氯虫苯甲酰胺+20%噻虫嗪水分散粒剂(福戈)+15%苯醚甲环唑+15%丙环唑(爱苗)+50%吡蚜酮(顶峰)或20%氯虫苯甲酰胺+20%噻虫嗪水分散粒剂(福戈)+12.5%苯醚
桥梁工程同其它工程相比更为复杂,尤其是桥梁桩基需要支撑整个桥梁的负荷,发挥着主要的承重作用,桥梁桩基对桥梁的使用寿命有着至关重要的影响,施工单位必须保证桥梁桩基施工
广西地处我国南疆,属山地丘陵盆地地貌。石灰岩地层分布广,为典型的岩溶地貌地区,因此频发崩塌、滑坡、地面塌陷、泥石流等环境地质灾害。广西也是一个地下水和有色金属、稀
并购已经成为一种日益增多的现象,并购的数量正在美国、欧洲乃至全球以引人注目的速度在增长。企业并购的主要动机是由于并购能通过整合两个商业实体成为一个联合体,这种联合体