基于MapReduce的数据立方体物化算法的设计与实现

被引量 : 3次 | 上传用户:bear81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代网络的普及和不断发展,互联网数据的积累程度也不断提高。当今,传统的数据仓库存储和查询技术的发展遇到了瓶颈。在传统的数据仓库技术中,对于数据立方体的构建有许多不同的物化算法,常见的模型有商覆盖立方体和外壳立方体等。这些模型都有相应的物化算法来实现立方体的计算。但是对于海量数据信息而言,传统的商覆盖立方体算法由于需要处理大量的临时数据而导致算法所需的运行空间过大,同时算法还存在着海量数据处理并行效率低下的问题。另一方面,传统的外壳立方体构建算法过于依赖数据离散度,在数据量大、数据之间离散度高的情况下算法效率明显低下。随着云计算和大数据技术的发展,为海量数据处理的若干问题带来了有效的解决途径。因此,针对以上提出的问题,本文分别展开以下研究:1)针对商覆盖立方体算法的不足,本文通过利用计算上卷方体的方法,提出了基于MapReduce框架的商覆盖立方体(QCCM, Quotient Cube Construction with MapReduce)算法。该算法在增强算法并行性的基础上,避免计算大量临时表的数据,提升了算法的效率。通过仿真验证,证明了改进后的算法与原始算法相比具有明显的高效性。2)针对外壳立方体算法的不足,本文通过分析原始算法在数据离散度高的条件下效率低下的原因,提出了MapReduce框架下基于数据离散度无关的Frag-shells算法,并对算法改进前后的复杂度进行了分析对比。通过仿真验证,证明了改进后的算法在数据离散度高的情况下,依然就有良好的算法效率。最后,本文进行了总结,以及对进一步的研究工作从不同的研究方向上做出了分析和展望。
其他文献
在高供高计专变客户中基本采用电压互感器对专变客户用电量进行计量,但是因为电力互感器误差的存在,造成计量装置的误差,造成用户用电量统计的失真现象。文章通过分析了35k V
本文就《广韵》版本的传承,详细研究介绍了《广韵》版本的情况,笔者希望通过此文能为学者的深入研究提供详实的参考资料。
目的评估浙江省存活麻风受累者的社会参与状况及其危险因素,为高危对象的筛选及麻风病社会康复工作的开展提供基础性资料。方法使用参与量表对浙江省麻风流行社区的216例存活
针对柴油机声信号非平稳非线性的特性,提出了一种基于变分模态分解(VMD)和拉普拉斯分值(LS)的柴油机故障诊断方法。首先对柴油机声信号进行变分模态分解,从分解得到的各模态函数
当前我国城市轨道交通进入快速发展期,安保工作压力与日俱增,越来越需要先进理论指导公安实战工作,构建城市轨道交通警务学二级学科成为摆在理论研究人员面前亟待解决的问题
<正>餐厅的啤酒杯里发现了苍蝇,法国人会将这杯啤酒倾倒一空;英国人会以绅士的态度吩咐侍者:“请换一杯啤酒来”;西班牙人会不喝酒,只留下钞票默然走掉;日本人会令侍者把经理
2016年9月和10月,长征二号F火箭先后将天宫二号空间实验室和神舟十一号载人飞船送入太空,为后续的空间站建设打下了坚实的基础。921工程作为跨世纪的载人航天工程,其技术含量
胡服在赵武灵王推行"胡服骑射"之后,改进了汉人军队的服装装备,壮大军力,使"习胡服,求便利"成了我国服饰变化的总体倾向。唐朝以其海纳百川的气度对外来文化兼收并蓄,胡人特
仪器设备在运行过程中难免会出现故障,故需要通过监测系统对设备运行状态予以检测识别。目前监测系统主要采用总线和视频图像监测的方式,但在某些应用方面受到限制。音频监测
汉语和韩国语是分属于不同体系的语言,但汉语和韩国语都存在表“转折”的连词,本文从语言实际出发,以汉语表“转折”连词“但是、可是、不过”与韩国语表“转折”连词为研究