基于Spark的海量数据实时查询系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:drhxumingzhu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和分布式技术的高速发展,我们进入了 “大数据”时代。当代的大数据具有数据量大、产生传播速率快等特点,并且数据的价值会随着其产生时间的推移而大幅下降,这些特性为大数据的处理带来了很大的挑战。基于Hadoop MapReduce的数据批处理可以满足大数据的吞吐量要求,但其处理间隔一般是小时级的,无法进行数据的实时处理,更加无法满足数据的实时查询要求。针对大数据处理中实时性要求比较高的情况,本文在Spark、HBase开源平台的基础上,设计并实现了一个分布式的数据实时处理系统,实现海量数据的实时转换与查询,并在原有平台的基础上提高实时性和易用性。本课题的主要工作包括:1、对HDFS文件存储策略进行优化:在分发文件时,考虑任务节点的负载情况,减少计算热点和不必要的文件移动,从而增加数据计算的并行度,提高计算任务的实时性。2、实现一个相对通用的、可配置的数据实时转换程序:通过设定源数据格式、源字段的转换规则和过滤规则等来规定计算任务的逻辑,避免相似任务的重复开发。3、为HBase提供辅助索引功能,增加查询的实时性:使用MapReduce的方式构建索引;利用HBase协处理器机制,拦截对表的增删改等操作,对维护辅助进行索引,以保证数据的正确性。4、为HBase增加类SQL查询接口 :能进行基本SQL语句的解析,实现关系型表模式与HBase表模式的转换、SQL语句逻辑与HBase操作逻辑的转化,将SQL语句转变成HBase的相应命令,完成对HBase表的操作。
其他文献
<正>作为西方马克思主义理论的代表人物之一,马尔库塞(Herbe(?)t Marcuse 1898-1979)在西方思想界产生过不可抹煞的影响.他同阿多诺一起为法兰克福学派走向国际论坛作出了重
虚拟施工包含多个领域,其主要支撑技术包括:虚拟现实技术、计算机仿真技术、建模与优化技术以及相关的软硬件技术。本文介绍了采用3ds max 8开发的虚拟施工课件,主要应用于:施工技术交底、现场实地分析、新技术可行性分析、工器具模型设计,通过对规划、设计、施工、管理等综合考虑,使技术、经济和时间上最优化组合,实现效益最大化。三维虚拟施工在送变电领域有很大的发展空间。
介绍了模块化多电平换流器的基本工作原理和三次谐波注入调制策略实现方式,理论分析了三次谐波注入调制策略对换流器接地方式的要求,该调制策略只适用于直流侧接地方式的柔性
使用微机编制建筑工程的概(预)算,这几年进展较快。本文介绍了《铁路房屋概算程序》的编制依据、主要功能、程序运行的工作环境、程序模块设计原则和数据库文件的组成。本程
随着国民经济的发展,铁路运输任务不断增加,采用大功率电气化机车牵引势在必行。本文根据新建SS_1型电力机车定修库改建为SS_4型大功率八轴重型货运电力机车定修库的工艺流程
介绍锅炉房带式运煤系统的电气控制设计原理。
本文根据一个音频感知模型提出了一种新的音频信号的水印嵌入算法,实现了音频作品的版权保护和内容证实功能。
本文为科研成果报告,介绍了在电气化铁路交叉渡线上设置绝缘接头的原则、方法及试验情况,可供电气化铁路人员在交叉渡线上设置绝缘接头的参考资料。本项科技成果已通过铁道部
皇女尤菲米娅设立了“行政特区日本”并希望招揽ZERO,但是……,鲁鲁修带着决心杀死了尤菲米娅,和布利塔尼亚之间的战争开始了!