基于差异化数据管理的高性能键值存储系统

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:sgjies
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,基于LSM-tree的键值(key-value)存储系统在数据存储领域发挥着重要作用,作为后端存储引擎被广泛部署在数据密集型应用场景下。然而,LSM-tree层次化的、高度有序的数据组织结构需要通过大量的数据合并操作维护,引起了严重的写放大问题。最近的研究工作针对系统架构提出了几类优化方案,虽然缓解了写放大问题,但是不同程度地牺牲了查询性能和空间利用率。为了获得均衡的高性能表现,本文通过分析现有系统设计中不同键值数据组织方式的性能权衡,为基于LSM-tree的键值存储系统提出一种新型架构,其核心思想是差异化地管理键值数据,以较低的写开销维护高查询性能和空间回收效率。我们基于该架构开发了DiffKV系统,主要设计分为以下两个方面:
  (1)键与值的差异化管理。在键值存储系统中,key和value的组织方式对读写性能有不同影响。据此,DiffKV利用键值分离技术差异化维护key和value的有序性。首先使用LSM-tree结构存储key,利用其较强的有序性支持高效的全局索引。同时,以一种新型的、与LSM-tree松耦合的树形结构vTree存储value,通过放松对value的有序性要求来降低数据合并开销,但是仍保障在范围查询时能够有效利用外存设备的顺序读取性能。DiffKV可以根据需要动态地调整value的有序性程度,在写性能和范围查询性能间做进一步权衡。我们为vTree设计了高效的数据合并和空间回收算法,控制了vTree的写放大和空间开销,同时避免了在维护value的有序性以及回收空间时对LSM-tree发起读写请求。
  (2)键值数据的分类存储。除有序性外,键值对大小也会影响系统的性能权衡。为了适应不同的键值大小分布,DiffKV进一步将外存空间组织成LSM-tree、vTree和vLogs三个模块,并将键值对根据value大小分为小、中、大三类,以不同模块管理。小键值对直接存储在LSM-tree模块,中、大键值对分别将value分离存储在vTree和vLogs模块。Value在vLogs模块中以追加写的形式存储,消除了合并开销,同时利用SSD处理大单位I/O时的高并发性能加速范围查询,从而在提升写性能的同时不影响查询性能。我们为vLogs模块设计了冷热分离的日志结构,将不常被更新的value独立存储,降低了空间回收的写开销。
  上述差异化的数据管理策略在各种读写混合的应用场景下有均衡的高性能表现。我们在RocksDB的代码基础上实现了DiffKV,并通过实验与代表主流架构的系统进行了性能对比。实验结果显示DiffKV在写入、点查询、范围查询各方面相比主流系统均有最优或接近最优的性能,且空间开销较低。
其他文献
硒是人体必需的微量元素之一,具有多种生物学功能,目前已知人体的40多种疾病都与缺硒有关。中国缺硒省份多达22个,缺硒地区面积占国土总面积的72%。调查结果显示,我国成人日均硒摄入量与国际硒学会推荐的日最低摄入量相差甚远。人体所获得的硒90%来源于食物,通过提高农作物可食用部分的硒含量,进食生物硒是最为安全有效的补硒途径。黄瓜(Cucumis sativusL.)对硒有一定的富集能力,作为我国设施栽
学位
该文主要从机理与实验两个角度出发研究新型低温催化吸附剂——活性炭纤维(ACF)的脱硫性能,主要内容如下:通过一些物理化学的分析手段对ACF进行了表面与结构表征.通过BET比表面积方法分析了ACF的孔的分布以及吸附等温线;通过X射线光电子能谱(XPS)分析对ACF进行了表面元素分析,并利用能谱图对ACF活化前后的结构变化进行了比较充分的研究与推测.ACF的动态脱硫性能实验.分别进行了GAC、ACF动
学位
城市轨道交通具有运量大、安全、便捷等优点,是解决各城市交通拥堵问题的首选方法。随着我国城轨运营里程快速增加,其城轨再生制动能量回馈系统也大量随之投入运行。城轨再生制动能量回馈系统运行环境复杂多变,频繁的处于开、停机状态,并且受到较高电压的冲击。因此,在实际运行中,再生制动能量回馈系统中逆变器的功率元件IGBT极易发生故障。通常逆变器中IGBT故障主要包括IGBT短路故障和IGBT开路故障。由于IG
学位
随着人类社会发展对能源需求的不断增加,化石能源短缺的问题逐渐引起了人们的重视。可再生能源以分布式电源的形式规模化地接入到配电网中,改变了配电网的拓扑和潮流。在配电网发生故障后,对配电网的安全可靠运行提出了新的要求。  本文通过调研分析国内外现行配电网故障区段定位方法,基于遗传算法以及粒子群算法,提出了一种新的含分布式电源的配电网故障定位方法,论文主要工作如下:  首先给出了分布式电源的简介,包括风
学位
该论文主要研究配电网规划,包括配网网架规划和配网重构,以及为之服务的负荷预测.配网网架规划又包括水平年网架规划和多阶段网架规划.对负荷预测,主要介绍了负荷预测的常用方法和各种方法的优缺点,并提出改进的人工神经元网络法用于负荷预测,以及算法实现和算例分析.对配网网架规划和配网重构,在综合各种方法的优缺点的基础上,提出了改进的多种群遗传算法用于配网网架规划和配网重构.并针对配网的特殊约束条件,提出了行
近年来,随着机器学习技术的兴起尤其是深度学习技术的蓬勃发展,人类社会迎来了人工智能的黄金时代。在新时代背景下,大量卫生保健数据加速创建,传统医疗正逐渐向智能模式转变。如何从海量电子病历中获得有价值的医学信息,是智慧医疗发展的需求,也是目前构建智慧医疗体系所面临的重大挑战。  相关实验研究表明,大量的准确标注的训练样本是使用机器学习方法获得准确率高、泛化性能好的模型的基础。然而,在医疗领域,对于某些
学位
随着各种数据密集型应用(如智能终端、多媒体、自主交通和虚拟现实)的兴起,第五代(the Fifth Generation,5G)移动通信系统的主要需求是增加容量、提高数据速率、减少延迟和改进服务质量。针对上述需求,迎接未来的挑战,一些关键的技术被提出,如非正交多址技术、物理层传输技术、大规模天线和毫米波。其中,速率分割多址技术(Rate Splitting Multiple Access,RSMA
多智能体路径规划问题是为多个智能体在地图上寻找它们从各自不同的起始位置到目标位置的无冲突路径集合的问题,属于NP-hard问题。该问题作为人工智能领域的重要问题之一,在物流仓储、交通控制、机器人等领域中也有非常多的应用。在研究该问题的历程中,产生了次维扩展、代价增长树路径搜索和基于冲突的路径搜索等求解方法。次维扩展作为其中表现最好的方法之一,是一种具备完整性和最优性的多智能体路径规划问题求解框架。
学位
网络在生活和生产中无处不在,例如社交网络,而网络表示学习(也称网络嵌入)是一种对网络型数据非常有效的处理方法,其旨在为网络中的每个节点都学习一个低维的向量表示。在现实世界中许多网络都是动态的不断变化的,然而大部分现有的算法只能对静态的网络取得较好的效果。动态网络通常可以分成两类:一种是随着时间推移其拓扑图的节点和边会增加或者减少;第二类则是网络的边会包含时间信息,如电话网络。动态网络表示学习算法大
学位