分布式顺序表内存数据结构优化技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ruyang0828
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和分布式技术的发展,传统关系型数据库已经不能满足现有应用对大数据存储、高并发、高吞吐量、低延迟方面的要求,分布式顺序表应运而生。现有分布式顺序表都是以磁盘存储为主,内存存储为辅,系统设计着重通过减少磁盘I/O次数达到提高系统性能的目的。随着内存行业的不断发展,单位内存价格迅速降低,越来越多公司可以承担起更大内存的系统,数据可以大部分甚至全部装入内存,使得内存计算成为可能。在以内存存储为主的情况下,原有分布式顺序表主要面临以下几个问题:(1)如何有效组织内存中数据,提高系统CURD性能。(2)如何合理使用内存,提高系统内存使用效率。这两个问题是制约分布式顺序表在大内存情况下发展的重要瓶颈。  针对分布式顺序表遇到的上述问题,本文在研究现有系统常用数据组织和存储结构的基础上,对已有数据结构进行优化,提出一个性能更好、内存空间使用效率更高的BHB+-Trie树结构,并在Apache HBase上实现和验证。通过基本数据结构测试和HBase中优化测试两个方面验证BHB+-Trie树在内存中的性能是否达到预期目标。本文的具体贡献包括如下两个方面:  (1)设计BHB+-Trie树结构,并通过实验验证其性能。本文研究了现有分布式顺序表内存中常用的数据组织结构B+树、LSM树和HB+-Trie树。通过对比选择HB+-Trie树进行重点研究,发现有些数据场景会导致HB+-Trie树发生数据倾斜,严重影响系统性能。为此,本文在HB+-Trie树基础之上提出BHB+-Trie树解决方案,很好的解决了数据倾斜对系统性能产生的影响。实验结果显示,BHB+-Trie树解决方案在普通数据情况下的性能与HB+-Trie树相当,但在数据倾斜的情况下BHB+-Trie树插入性能提高13℃、查询性能提高15℃。  (2)使用BHB+-Trie树结构对Apache HBase系统内存结构进行优化,并通过实验验证优化效果。本文对HBase的优化方案包括整体架构设计、内存数据组织结构优化和内存数据存储结构优化,优化方案与HBase原有机制完全兼容。本文将HBase原有内存结构优化为BHB+-Trie树以提高内存插入查询性能,并通过重新设计内存部分数据存储结构提高内存使用效率。实验结果表明,优化后方案通过对内存数据进行有效组织使得插入性能提高16℃、查询性能提高17℃、内存利用率提高19℃,达到了预期目的。
其他文献
现场总线控制系统融合了自动控制、计算机、网络通信、自动化仪表等多项技术,代表着控制系统的发展方向。   目前,由于各种总线各有特色,加之不同总线产品厂商的利益纷争,形成
学位
未来的实时系统将具备多种能力,包括分布式处理、多媒体处理、实时控制、后台信息处理等。这类实时系统将在未来的信息社会中发挥着更为重要的作用,成为最主要的应用之一。它
文字生成来源鉴定是司法鉴定的重要组成部分。尤其是计算机辅助鉴别,在文字鉴定大量筛查和疑难文字鉴定中发挥着重要作用。随着计算机技术的发展,对文字生成来源的计算机辅助鉴
表面质感建模与绘制是计算机图形学的重要研究课题,也是真实感绘制技术中的核心课题之一.这个研究课题的主要内容是让计算机可以真实地模拟自然界中物体的外观.本文提出了基
城市自来水营销管理信息系统作为一套完整的营销管理系统,包括基础信息管理、抄表管理、收费管理、表务管理、信息查询、报表中心、系统维护、银行接口等子系统。系统基于Win
本文根据嵌入式系统的特点和发展趋势,设计与实现了一款基于ARM9的可重构嵌入式开发平台,它为构建各种特定用途的嵌入式系统提供了一个完整的软硬件开发环境。平台采用核心板与
Java并行应用通常需要处理大量的数据和复杂的工作流。Java虚拟机(Java VirtualMachine,JVM)正成为影响Java系统性能的关键,在单JVM性能提高达到极限时,构造多JVM的计算环境将是
随着web环境中的应用形式向开放、动态的模式转变,授权者需要在对请求者不熟识甚至陌生的情况下自主地做出访问控制决定,传统的授权机制不能很好地适应这种情况,信任管理这种新
当前,嵌入式技术的应用正以飞快的速度扩展到各个领域,嵌入式技术本身也得以长足的发展,其中嵌入式操作系统的发展尤为突出,出现了一些优秀的开放源代码的操作系统,如Linux
随着电网建设的步伐加快,电力企业的电网结构日趋庞大,采用传统的方式管理电网已经难以满足管理与业务需求。运用现代计算机管理手段,大力开发和利用企业的信息资源建立管理信息