论文部分内容阅读
随着互联网发展,各行各业的信息化,在科学研究、电子商务、互联网应用等众多领域,数据量正以几何级数增长,比如沃尔玛和淘宝等大型商业公司数据量已经达到PB级别。传统的数据仓库、商业智能系统已逐渐无法胜任如此大规模商业数据的有效管理,高效分析及决策分析的需求。与此同时,用户对海量商业数据分析的高效性、可扩展性等特性也提出了新的要求。为此本文研究了海量商业数据管理方面的技术,提出了在Hadoop环境下的海量数据管理方案,并对MapReduce框架下的数据分析算法进行了优化,优化的目标集中在数据仓库中典型连接操作(即,星型连接)算法。本文提出的优化方案是通过HdBmp索引的高效构建以及合理布局,大幅提升了星型连接的效率和可扩展度,并通过充分的实验证明了本文所提连接算法的有效性和高效性。本文主要的主要贡献包括以下三个部分:·基于HdBmp索引的数据布局本文在Hadoop环境中提出了基于HdBmp索引的商业数据布局方案。首先对数据文件进行恰当地切分,并按照按列存储的方式进行存储,从而实现了数据在HDFS上的合理布局,为后续的数据分析处理提供了基础。其次,本文在Hadoop环境中引入了索引技术,即HdBmp索引。HdBmp索引是HDFS文件系统上的一种非内嵌式的,且与数据独立的内容感知索引技术。建立该索引的目的是提高后续的数据分析的效率,此外其分布式的创建与更新也使得系统具有可扩展性与健壮性。· HdBmp连接本文提出了基于HdBmp索引的MapReduce连接算法-HdBmp连接。基础的MapReduce连接在连接过程中面临过多的无用数据的传输,造成巨大的网络开销,从而连接效率低下。对于星型连接,本文首先提出了一种改进的连接算法以减少MapReduce连接任务的数量。其次,在此基础上,本文提出了利用HdBmp索引的HdBmp连接算法,该算法能够通过使用连接计划过滤掉绝大多数不出现在连接结果中的数据,从而更高效地实现了星型连接。实验证明HdBmp连接算法在分析处理海量数据时具有更大的优势。·实验对比本文实验所采用的数据集是由TPC-H基准测试工具生成,并从多个角度对HdBmp连接进行了测试,以及与改进星型连接算法(IM算法)的对比实验。实验结果表明,本文提出的星型连接的算法(HdBmp连接)胜过IM算法,并且有较好的可扩展性。同时,本文还分析了HdBmp连接中有待改进的地方,为后续的研究工作提供了参考。