流式数据实时查询方法研究

被引量 : 0次 | 上传用户：tnzx911

【摘要】

：

流式数据是指不断产生、实时计算、动态增加且要求及时响应的数据,因其海量和实时性等特点,流式数据系统一般仅存储最近一段时间内的数据。已有的流式数据存储查询方式主要采

【作者】

：

徐伟

【发表日期】

：

2015年期

【关键词】

：

流式数据实时查询缓存机制异构数据库关联查询

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

流式数据是指不断产生、实时计算、动态增加且要求及时响应的数据,因其海量和实时性等特点,流式数据系统一般仅存储最近一段时间内的数据。已有的流式数据存储查询方式主要采用基于分布式文件系统的数据库,即：底层存储采用Hadoop分布式文件系统HDFS,上层采用以大规模并行处理MPP架构作为调度引擎的数据库。目前,基于HDFS的数据库在流式数据的存储与查询方面中存在以下不足：1.HDFS适于批量数据的存储,直接将流式数据单条存入HDFS,将产生大量文件碎片,使数据访问寻址时间增大,难以满足实时性查询的应用需求；2.现有的数据库系统查询时一般需启动MapReduce,因有较大延时,查询实时性比较差。3.当需要在数据仓库工具与传统数据库进行关联查询时,已有的数据全复制策略对空间和时间占用较大,查询效率较低。针对上述问题,本文基于分布式文件系统HDFS和数据查询系统Impala,采用缓存策略对单源和多源流式数据存储与查询方法进行研究,并对传统数据库与基于分布式文件系统的数据仓库工具间跨平台关联查询方法进行了研究和应用测试。本文的主要工作包括：1.基于缓存的单源数据查询方法研究,即：单源流式数据经格式处理后,采用缓存机制存储到分布式文件系统,并使用数据仓库工具Impala实现流式数据的实时查询。2.多源数据实时查询及多级缓存优化方法研究,即：当多源流式数据共存时,采用多源单队列和多源多队列两种方法对数据来源进行区分和缓存,然后将多源数据的查询归类到单源数据的查询,以提升系统对多数据源的支持；同时,本文还提出一种多级缓存优化策略,该策略可支持对缓存的数据进行查询,以提升查询的实时性。3.传统数据库与数据仓库工具跨平台查询方法研究,即：面向传统数据库与数据仓库工具的关联查询,提出一种能够支持跨越这两种平台的数据查询方法,该方法将关联查询中传统数据库的查询结果以临时表的形式存储到Impala,然后在Impala平台上进行本地的关联查询。本文的创新点为：1.提出一种基于缓存的单源流式数据查询方法,该方法采用缓存机制存储数据,并使用查询效率较高的Impala对存储的数据进行查询,有效地提升了查询的实时性。2.采用面向多源数据查询的多源单队列和多源多队列两种方法,是单源数据缓存方法的扩展；同时提出一种多级缓存优化策略,该策略支持对缓存的数据进行查询,可大大提升查询的实时性。3.提出了一种能够支持跨越传统数据库和数据仓库工具的数据关联查询方法,该方法将关联查询中传统数据库的查询结果以临时表的形式存储到数据仓库工具,可大大减少两平台间的数据传输量,节省数据传输时间和存储空间,提高关联查询的效率。本文基于清华大学CPU中心国家实验室搭建的Impala集群框架,对所提出的基于缓存的单源和多源数据查询以及跨平台查询方法,分别进行了实验,实验结果验证了所提出方法的可行性和有效性。

其他文献

中美企业商务谈判的文化差异分析

随着中国进入世界贸易组织,中国与各国间的贸易往来日益频繁,中美之间的贸易关系也随之紧密,商务谈判的重要性也日益突出。两国之间的文化差异对商务谈判造成影响和摩擦,引起

期刊

文化差异商务谈判沟通策略

建行C分行管理与营销信息平台方案设计

随着信息技术的发展,数据在行业发展中的作用变得越发重要。金融业作为拥有大量数据的行业,在大数据时代的浪潮中面临着前所未有的机遇和挑战。银行业作为金融业的代表,一方

学位

建行C分行管理营销信息平台

地下通信电、光缆防雷措施的探讨

该文在分析雷电对埋地电、光缆线路的危害、雷击电缆的形式基础上,依据电、光缆防护中的标准,探讨了地下通信电、光缆防雷的有效措施,以利于电、光缆通信线路的畅通和保护人

期刊

通信电/光缆防雷排流线消弧线

采用HRB500钢筋的混凝土梁破坏过程模拟

为考察钢筋混凝土梁的破坏全过程,采用数值模拟方法,对配置HRB500钢筋两点对称加载的混凝土梁作出数值模拟。得到梁的模拟破坏过程应力图以及及荷载-挠度曲线。通过与试验结

期刊

混凝土梁数值模拟HRB500新规范

承压堵漏钻井液工艺技术研究与应用

井漏是石油钻井过程中常见的井下复杂问题。它不仅影响钻井作业的正常进行,而且往往会衍生出其它类型的井下复杂事故,严重时可能会导致井塌、卡钻和井喷等事故的发生,同时造

学位

井漏防漏堵漏承压堵漏长裸眼

核桃多肽的制备条件优化及其抗氧化活性研究

核桃在我国的栽培历史悠久,核桃仁中含有蛋白质、不饱和脂肪酸、VE、黄酮、叶酸、多酚类等多种物质,使之赋予了良好的保健功能。鉴于核桃油中含有高达90%的不饱和脂肪酸,人们

学位

核桃蛋白核桃多肽响应面优化抗氧化活性保健品

八桂乡村换新颜——广西整县推进高标准基本农田土地整治重大工程建设纪实

<正>广西自2013年起在全区范围内开展整县推进高标准基本农田土地整治重大工程,开启了以县为整体开展土地整治项目建设的新模式。5年来,广西累计投资67亿元,在全区21个县组织

期刊

高标准基本农田重大工程项目整县推进土地整治重大工程

舒尼替尼抑制树突状细胞表面PD-1、PD-L1和PD-L2的表达

背景和目的肾癌为常见的恶性肿瘤,传统治疗方案对其疗效较差,患者总生存期短以及预后较差。随着对肾癌发生、发展研究的深入,针对肾癌的相关特点而研制的酪氨酸激酶抑制剂(如

学位

舒尼替尼树突状细胞程序性死亡分子1及配体肾细胞癌

加强工程造价管理与控制的几点建议

经济的快速发展,使我国人民的物质文化生活发生了较大的变化,人们对所居住的环境提出了更高的要求,这在很大程度上推动了工程项目投资规模的扩大,所以控制和管理好工程造价具

期刊

工程造价管理与控制建议

罗非鱼胶原肽中试车间设计与中试生产

胶原肽不仅分子量小易于人体消化吸收,而且具有独特的生物活性,主要表现为抗高血压、抗氧化、抗肿瘤等方面,因此在医疗、保健及美容领域具有良好的应用前景。本研究立足于企

学位

胶原肽中试车间设计中试生产生物活性

流式数据实时查询方法研究

其他学术论文