【摘 要】
:
大数据时代下,传统关系型数据库遭遇了数据爆发式增长带来的巨大挑战,导致一些需要大规模存储和高效检索的业务需求很难处理和实现。由于拥有高可用、可扩展、分区容错等特性,Hadoop系列项目逐渐成为大规模数据计算和管理的有效方案。作为基于Hadoop分布式文件系统HDFS的分布式非关系型数据库,HBase有着许多关系型数据库不具备的适合海量数据存储和管理的优势。但随着研究和实践的深入,人们发现HBase
论文部分内容阅读
大数据时代下,传统关系型数据库遭遇了数据爆发式增长带来的巨大挑战,导致一些需要大规模存储和高效检索的业务需求很难处理和实现。由于拥有高可用、可扩展、分区容错等特性,Hadoop系列项目逐渐成为大规模数据计算和管理的有效方案。作为基于Hadoop分布式文件系统HDFS的分布式非关系型数据库,HBase有着许多关系型数据库不具备的适合海量数据存储和管理的优势。但随着研究和实践的深入,人们发现HBase进行非主键数据检索时,需要对整个数据表进行扫描,耗时较长并且代价很高,这限制了HBase在很多方面的应用。借鉴传统数据库中索引的思想,科研人员和工程师对HBase非主键数据索引进行了大量的研究,本文在总结并分析了这些研究面临的难点和关键问题的基础上,设计并实现了一种基于日志结构合并树LSM-Tree和计数布鲁姆过滤器CBF的HBase层次化辅助索引系统LB-Indexer。主要工作内容如下:(1)按照LSM-Tree层次化模型的思想,将整个辅助索引系统分为内存缓存和持久化存储两部分。内存缓存使用空间和时间复杂度低的跳跃表作为索引存储的底层数据结构,保证数据的写入和检索效率;利用HDFS分布式文件系统的可扩展和冗余备份的特性保证持久化存储中索引数据的高可用和稳定性。对于文件块的查询,使用CBF进行高效过滤,进而缩短索引数据的检索时延。(2)通过对一致性哈希算法的研究,设计实现了索引数据分片机制,保证了索引集群的高效检索和动态扩展。采用HBase协处理器中的钩子函数捕获数据及其操作,以此实现索引数据的动态维护;对于HBase中已经存在的海量数据,采用MapReduce离线计算框架进行处理,实现对索引的快速批量构建。(3)在内存缓存层中,通过对指数平滑法的研究,本文提出了一种比LRU缓存淘汰算法更为高效的冷热数据分离算法HotValue,该方法通过计算并排序缓存索引数据的热度值,达到冷热分离的目的,优化了内存的空间结构并提高了缓存数据的命中率。(4)通过大数据测试工具YCSB设计多组测试实验,分别从索引写入、批量构建、动态构建以及扩展性方面对LB-Indexer进行测试,证明了本文提出的辅助索引方法可以提供稳定高效的索引服务;最后,通过对比LB-Indexer与原生HBase、HotCols以及热数据的检索速度,表明本文方法能数十倍地提高HBase非主键数据检索效率。
其他文献
目标检测的任务是从图像中识别感兴趣目标的类别并用检测框标记其大小和位置,随着深度学习的广泛应用,目前对于图像目标检测的研究取得了巨大的进步和成果,近年来人们开始研究对视频的目标检测方法。视频是由一系列连续图像组成,其图像之间存在一定的映射关系,视频在提供更多前后文时序信息和空间信息的同时,其场景的变化也增加了许多挑战,如:目标遮挡、运动变形、光照模糊等。如果将图像目标检测方法直接用于视频的目标检测
随着数据规模的不断扩大,分布式文件系统以其海量数据支持、高可用、大规模并发访问和并发处理能力等优势获得越来越多的关注。基于开源分布式文件系统HDFS实现的分布式海量
随着二胎政策的放开,家庭结构也发生相应的改变,新的问题也随之而来。二胎的出生对家庭中的长子女的影响尤为明显,大部分的长子女因为难以适应家庭结构的变化,可能会出现一系
伴随着电子商务的发展,网络冲动购买行为日益受到人们的关注,尤其是电子商务的便捷性及虚拟性使得青少年群体也加入到了网购行为中来,由此产生了诸多的社会问题。而网络冲动
1872年,Boltzmann在Maxwell等人的工作[1,2]基础上建立了Boltzmann方程,Boltzmann方程一直是偏微分方向最具挑战的研究领域之一,可以用来描述稀薄气体随时间演化的规律,尤其是解的基本性质的研究,可根据粒子碰撞过程分为弹性碰撞和非弹性碰撞两种.粒子在高密度或者低温度时集体行为和相位不同,根据相位的不同将这些粒子分为玻色子、费米子及任意子.任意子存在于一维或者二维空间
地图作为一种历史悠久的工具,在法律上受到各国著作权法或版权法的保护。在我国,自《著作权法》产生之日起,地图作品就受《著作权法》的保护,属于《著作权法》规定的图形作品
稀土氧化物具有很多独特的物理特性,优异的性能和巨大的应用潜力。氧化铈(CeO2)作为储量最丰富的稀土氧化物一直吸引着众多研究者的关注,对这一材料的研究取得了许多重要成果。
嗜冷酶能够在低温下保持较高的催化活性,进而保证嗜冷生物的正常代谢率。有关嗜冷酶的冷适应机理的诸多研究表明,酶结构上的高构象柔性是保证其低温下高效催化能力的结构基础,而酶自身的哪些理化性质或因素影响了其结构的构象柔性?这一问题尚不清楚。本文以来源于枯草杆菌丝氨酸蛋白酶家族的嗜冷酶VPR及常温酶PRK为研究对象,使用分子模拟和静电计算手段研究了蛋白质表面静电性质对其柔性变化的影响。本研究对两个蛋白酶结
在传统的知识产权保护体系中,除了专利外,商标、版权、商业秘密等都在商业模式的保护上显得力不从心。即便是通过专利来保护商业模式创新,也因为商业模式具有很强的智力活动
离化态原子广泛存在于自然界中,对于离化态原子基本性质的研究在解决很多物理问题上发挥着关键的作用,尤其是天体物理、受控核聚变等前沿科学研究领域。本论文主要运用独立电