基于Spark的海量数据实时查询系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：drhxumingzhu

【摘要】

：

随着互联网和分布式技术的高速发展,我们进入了 “大数据”时代。当代的大数据具有数据量大、产生传播速率快等特点,并且数据的价值会随着其产生时间的推移而大幅下降,这些特

【作者】

：

刘希冀

【出处】

：

北京邮电大学

【发表日期】

：

2017年01期

【关键词】

：

实时查询 Spark HBase

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网和分布式技术的高速发展,我们进入了 “大数据”时代。当代的大数据具有数据量大、产生传播速率快等特点,并且数据的价值会随着其产生时间的推移而大幅下降,这些特性为大数据的处理带来了很大的挑战。基于Hadoop MapReduce的数据批处理可以满足大数据的吞吐量要求,但其处理间隔一般是小时级的,无法进行数据的实时处理,更加无法满足数据的实时查询要求。针对大数据处理中实时性要求比较高的情况,本文在Spark、HBase开源平台的基础上,设计并实现了一个分布式的数据实时处理系统,实现海量数据的实时转换与查询,并在原有平台的基础上提高实时性和易用性。本课题的主要工作包括:1、对HDFS文件存储策略进行优化:在分发文件时,考虑任务节点的负载情况,减少计算热点和不必要的文件移动,从而增加数据计算的并行度,提高计算任务的实时性。2、实现一个相对通用的、可配置的数据实时转换程序:通过设定源数据格式、源字段的转换规则和过滤规则等来规定计算任务的逻辑,避免相似任务的重复开发。3、为HBase提供辅助索引功能,增加查询的实时性:使用MapReduce的方式构建索引;利用HBase协处理器机制,拦截对表的增删改等操作,对维护辅助进行索引,以保证数据的正确性。4、为HBase增加类SQL查询接口 :能进行基本SQL语句的解析,实现关系型表模式与HBase表模式的转换、SQL语句逻辑与HBase操作逻辑的转化,将SQL语句转变成HBase的相应命令,完成对HBase表的操作。

其他文献

审美解放的隐喻:浮士德精神——论马尔库塞批判理论的归宿

<正>作为西方马克思主义理论的代表人物之一,马尔库塞(Herbe(?)t Marcuse 1898-1979)在西方思想界产生过不可抹煞的影响.他同阿多诺一起为法兰克福学派走向国际论坛作出了重

期刊

马尔库塞二十世纪批判理论浮士德精神审美解放

3DS MAX虚拟施工在输电线路中的应用

虚拟施工包含多个领域,其主要支撑技术包括:虚拟现实技术、计算机仿真技术、建模与优化技术以及相关的软硬件技术。本文介绍了采用3ds max 8开发的虚拟施工课件,主要应用于:施工技术交底、现场实地分析、新技术可行性分析、工器具模型设计,通过对规划、设计、施工、管理等综合考虑,使技术、经济和时间上最优化组合,实现效益最大化。三维虚拟施工在送变电领域有很大的发展空间。

期刊

虚拟施工3dsMAX计算机仿真技术三维

MMC型柔性直流输电系统三次谐波注入调制策略的可行性

介绍了模块化多电平换流器的基本工作原理和三次谐波注入调制策略实现方式,理论分析了三次谐波注入调制策略对换流器接地方式的要求,该调制策略只适用于直流侧接地方式的柔性

期刊

柔性直流输电模块化多电平换流器三次谐波注入接地方式电压安全裕度电流安全裕度

《铁路房屋概算程序》的编制和应用

使用微机编制建筑工程的概(预)算,这几年进展较快。本文介绍了《铁路房屋概算程序》的编制依据、主要功能、程序运行的工作环境、程序模块设计原则和数据库文件的组成。本程

期刊

铁路建筑概算程序编制

关于钢筋混凝土结构的非线性有限元分析

期刊