Hadoop平台上结构化数据的压缩技术研究与实现

来源 :东华大学 | 被引量 : 4次 | 上传用户:jingqihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务、社会计算、物联网等新应用的发展,促使相关数据的规模呈现出快速增长的趋势,大数据正改变着人们的生活、工作和思维方式。准确、高效地从大数据中挖掘出潜在的有用信息进而支持决策变得越发重要,并逐步成为数据科学领域关注的热点。分布式存储和计算平台Hadoop以分布式文件系统HDFS和分布式计算框架MapReduce为核心,已成为大数据处理领域事实上的标准。数据压缩是提高查询处理性能的重要手段。出于通用性考虑,HDFS按统一的方法存储结构化和非结构化数据,并支持常见的重量级压缩方法,但查询处理中需要解压,且解压开销较大,结构化数据的优势无法充分体现。在列存储系统中,轻量级压缩方法应用十分普遍,且查询处理可直接对压缩数据进行。然而,查询处理中元组重构是一个重要的性能瓶颈,尤其是在分布式环境下,元组重构时巨大的网络开销制约了查询处理性能。来源于PAX存储模型的行列混合存储结构结合了行存储和列存储各自的优势,能够为分布式环境下的大数据处理提供良好的存储模型。本文主要研究内容为Hadoop平台上结构化数据压缩的设计与实现。首先,分析了几种常见的轻量级数据压缩算法的实现原理,并结合压缩算法的特点,在HDFS之上设计了一套行列混合存储数据页结构;然后,提出并实现了基于MapReduce的自适应轻量级数据压缩方案,将大数据分块并行压缩,压缩后的数据存储为设计的混合存储结构并保存在HDFS上,并设计了该存储结构上的数据读取接口;同时,提出了动态数据节点选中优先级队列树结构,对数据在集群中各节点上的负载均衡进行优化;最后,分析了压缩数据上的查询实现过程,并给出了相应的查询实现方案,查询直接在压缩数据上进行,从而充分利用压缩所带来的性能优势。在大规模数据仓库基准数据集上的实验结果验证了提出的方案针对结构化数据在减少存储量、提升查询性能方面的有效性。
其他文献
极限学习机(Extreme Learning Machine,ELM)在机器学习领域上是一种极具竞争力的学习算法,它结构简单,学习速度很快,与传统的检测技术支持向量机(Support Vector Machine,SVM)相
学位
在层出不穷的软件漏洞中,缓冲区溢出漏洞已经成为当前危害最大、出现频率最高的漏洞,随着信息技术和网络技术的高速发展,缓冲区溢出漏洞日益变得严重。面向源码的缓冲区溢出漏洞
建立网格可以最大限度地综合利用分布资源(数据,计算能力,存储能力等),消除异构资源孤岛,真正实现资源共享;网格门户同Web门户类似,是一个访问网格系统的入口;访问控制是网格
随着信息技术的不断发展,互联网用户不再满足于以往习以为常的上网搜索、即时聊天等主动行为,而是希望能够针对自己的兴趣、爱好、性格、行为等特点,接受具有针对性的推荐服务。
基于榕树型拓扑的铁路无线Mesh网络结合总线型和星型拓扑的优点,为将宽带Internet延伸到铁路沿线提供了一种更为合理的解决方案。但是,与传统的无线校园和企业网等不同,铁路
医学图像的三维重建是医学可视化重要的研究方向。三维重建通过二维断层图像重建出三维实体,提供给用户进行观察和交互。通过医学图像的三维重建,能够准确的反映人体组织、器
尽管关系数据模型为数据库提供的优势远超过其他数据模型,但它缺乏一种处理非确定性数据的综合方法,而数据的非确定性充满我们整个现实世界环境中,并愈来愈引起人们的注意,如
图像分割能够按照某一特征把图像分成若干具有一定意义的、互不交叠的区域,是由图像处理前进到图像分析的关键一步。图像分割的质量将直接影响对图像的后续处理,所以图像分割
计算机软硬件技术飞速发展,有力地推动了嵌入式系统等专用计算机系统的广泛应用。在很多嵌入式系统中,用户往往要求具有菜单、窗口和按钮等图形元素的人机交互界面。而图形用