基于HBase的数据管理系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ananjuben
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,应用所产生的数据量越来越大。分布式数据库HBase对海量数据的管理得到了广泛应用。许多企业希望将原本存放在关系型数据库中的数据迁移到分布式数据库HBase中,并在HBase上对数据进行管理。因此研究在HBase上提供一个数据管理系统具有重要意义。在分析基于HBase的数据管理系统设计目标基础上,给出了系统的整体设计方案,包括两大功能:将关系型数据库中的模式和数据迁移到HBase中,使用SQL语句管理HBase中的数据。关系型数据库模式和数据迁移功能将关系型数据库表的列信息、索引信息、主外键信息存储到HBase的元数据表中。表数据迁移任务分割为多个小任务并尽可能地平分给集群中机器来执行,同时根据主外键信息对数据进行冗余存储,根据索引信息在HBase中创建索引表并记录索引数据。使用SQL语句管理HBase中数据,重点优化多表连接查询。将多表连接查询任务根据HBase的特点分解为若干子多表连接查询,使用HBase的协处理器并发的执行子多表连接查询。子多表连接查询中根据连接条件的特点优化表的连接顺序,利用迁移流程产生的冗余数据、索引数据提高连接查询效率。子多表连接查询的中间数据利用哈希表和多叉树存储来降低内存开销。在客户端合并多个子多表连接查询返回的结果。通过对基于HBase数据管理系统的实验测试,表明该系统能高效的迁移表模式和数据,对迁移后的数据能正确的管理,且在多表连接查询时相比与Hive具有较好性能。
其他文献
目前,如数据库模式的改进或迁入、基于组件的开发、数据库设计等大量数据库应用应运而生,模式信息在这些数据库应用中起着关键作用,如何操作模式信息的问题便摆在了人们面前
单证作为承载信息的一个载体为魔力平台可视化开发提供基础,单证关系为平台的开发和运行提供支撑。因此单证关系的定制在平台中至关重要。但平台中原单证关系的定制模型存在
目前,随着数字媒体的迅速普及和互联网的蓬勃发展,数字水印技术已经成为保护网络信息安全的重要手段,人们可以通过在数字媒体信息中嵌入数字水印,来实现检测作品的完整性和真实性
在多租户云数据库中,为了保证租户服务质量,资源隔离技术日益流行。其中轻量级组件CGroup可以限制、记录、隔离进程组所使用的物理资源,具有易部署和易管理的优点。但是在用C
无线传感器网络能够实时监测、感知和采集各种环境或者对象的信息,并且能够对其进行相应的数据处理,因此,它被广泛地应用于军事、医疗、交通、环境等诸多领域。由于传感器节
无线射频识别(RadioFrequencyIdentification,简称RFID)技术是一种非接触的自动识别技术,可利用射频方式进行双向通信,达到自动识别目标对象并获取相关数据的目的。随着RFID技术
自从八十年代开始,射频识别技术(RFID:Radio Frequency Identification)已经是一项逐步走向成熟的非物理接触的自动识别技术。在远距离、恶劣环境的情况下,RFID技术仍然可以达
随着内存计算技术的飞速发展,大容量、低能耗的内存架构已经成为支撑内存计算发展的关键因素,然而现有基于DRAM(Dynamic Random Access Memory)的主存系统却受限于DRAM自身的
目前嵌入式领域的图像处理技术逐渐呈现出计算复杂、数据量大、并发性和实时性的要求越来越高等特点,使得传统的处理器体系结构越来越难以满足应用的需求,亟需研究新型高性能处
随着因特网的愈加普及,互联网正在成为一种不可缺少的信息传播媒介。但同时,网上的不良信息如反动、色情等内容也随之扩散,极大的影响了国家的安定和人民群众的身心健康。论