MapReduce环境中基于列存储的一种高效的星型连接方法

被引量 : 0次 | 上传用户:shnoonkids
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展,各行各业的信息化,在科学研究、电子商务、互联网应用等众多领域,数据量正以几何级数增长,比如沃尔玛和淘宝等大型商业公司数据量已经达到PB级别。传统的数据仓库、商业智能系统已逐渐无法胜任如此大规模商业数据的有效管理,高效分析及决策分析的需求。与此同时,用户对海量商业数据分析的高效性、可扩展性等特性也提出了新的要求。为此本文研究了海量商业数据管理方面的技术,提出了在Hadoop环境下的海量数据管理方案,并对MapReduce框架下的数据分析算法进行了优化,优化的目标集中在数据仓库中典型连接操作(即,星型连接)算法。本文提出的优化方案是通过HdBmp索引的高效构建以及合理布局,大幅提升了星型连接的效率和可扩展度,并通过充分的实验证明了本文所提连接算法的有效性和高效性。本文主要的主要贡献包括以下三个部分:·基于HdBmp索引的数据布局本文在Hadoop环境中提出了基于HdBmp索引的商业数据布局方案。首先对数据文件进行恰当地切分,并按照按列存储的方式进行存储,从而实现了数据在HDFS上的合理布局,为后续的数据分析处理提供了基础。其次,本文在Hadoop环境中引入了索引技术,即HdBmp索引。HdBmp索引是HDFS文件系统上的一种非内嵌式的,且与数据独立的内容感知索引技术。建立该索引的目的是提高后续的数据分析的效率,此外其分布式的创建与更新也使得系统具有可扩展性与健壮性。· HdBmp连接本文提出了基于HdBmp索引的MapReduce连接算法-HdBmp连接。基础的MapReduce连接在连接过程中面临过多的无用数据的传输,造成巨大的网络开销,从而连接效率低下。对于星型连接,本文首先提出了一种改进的连接算法以减少MapReduce连接任务的数量。其次,在此基础上,本文提出了利用HdBmp索引的HdBmp连接算法,该算法能够通过使用连接计划过滤掉绝大多数不出现在连接结果中的数据,从而更高效地实现了星型连接。实验证明HdBmp连接算法在分析处理海量数据时具有更大的优势。·实验对比本文实验所采用的数据集是由TPC-H基准测试工具生成,并从多个角度对HdBmp连接进行了测试,以及与改进星型连接算法(IM算法)的对比实验。实验结果表明,本文提出的星型连接的算法(HdBmp连接)胜过IM算法,并且有较好的可扩展性。同时,本文还分析了HdBmp连接中有待改进的地方,为后续的研究工作提供了参考。
其他文献
采用熔融法,选取Na2O-BaO-ZnO-B2O3-SiO2系低熔点玻璃为基釉,以TiO2为乳浊剂,通过乳浊剂不同的加入方式制备了低温无铅乳浊玻璃釉.通过X射线衍射、扫描电镜及EDS能谱分析,研
本文基于产权视阈研究了广东民族地区农民的财产性收入。本文提出的问题在于,广东民族地区的农民由于资产权能不足,面临着财产性收入增长的瓶颈。如何有效利用广东民族地区农民
本文《楚美术造型方法在动画形象设计中的研究》阐述了楚美术造型的特点、来源、背景、条件和发展的过程。尤其是楚美术造型的表现形式、修辞手法、及审美法则为现代的动画形
<正>2014年下半年以来,受多重因素叠加影响,国际油价持续下跌,到11月底布伦特油价已跌至70美元/桶附近。国际油价走势被称为全球经济的晴雨表,油价涨跌历来是一把双刃剑。油
多相混输技术是近年来发展起来的一种高效经济的油田开发方式。多相混输泵作为多相混输技术的核心设备,它是一种集常规液相泵和气体压缩机性能于一体的多相输送装置。叶轮作为
近年来,武警部队加大了对专业技术干部队伍建设力度,设立了专业技术资格评审和多种人才奖励机制,目前这些评审工作基本靠手工组织实施。每年都需要耗费大量的人力物力财力,效
离合词是现代汉语中极具特色的语言现象,其用法比较复杂、难以掌握,是留学生学习汉语的难点之一。同时,离合词又是留学生汉语习得过程中尤为特殊的高频使用词汇。近些年来,伴
本文以清末报律(1906——1911)及其引发的报界反应为研究对象,重点探讨清廷执着于制颁报律的原因及主要意图,报界对于报律的态度变化及其权利诉求,报律与立宪的纠葛等问题,藉
孔子是中国春秋时期伟大的思想家、政治家、教育家。他创立以仁礼为核心的政治思想,影响着中国古代政治制度,成为中华民族历代王朝政治思想的核心,对中国乃至全世界是一笔伟
本研究基于冯友兰的人生哲学理论,尝试编制本土化生命意义量表。包含两个系列研究:研究1初步编制了本土化生命意义寻求量表-觉解量表。在文献分析的基础上,结合已有的生命意义