【摘 要】
:
分布式数据库凭借其良好的写性能和扩展能力在大数据场景得到了广泛应用,基于日志结构合并树(Log-Structured-Merge Tree,LSM-Tree)的键值存储系统是数据库中最为常见的单机存储引擎。当有热点访问或节点伸缩时,分布式数据库各节点间以数据分片为单位进行数据迁移,而这通常会改变LSM-Tree按比例逐层放大的稳定树形结构。为保持结构稳定,LSM-Tree必须在后台频繁执行合并操作
论文部分内容阅读
分布式数据库凭借其良好的写性能和扩展能力在大数据场景得到了广泛应用,基于日志结构合并树(Log-Structured-Merge Tree,LSM-Tree)的键值存储系统是数据库中最为常见的单机存储引擎。当有热点访问或节点伸缩时,分布式数据库各节点间以数据分片为单位进行数据迁移,而这通常会改变LSM-Tree按比例逐层放大的稳定树形结构。为保持结构稳定,LSM-Tree必须在后台频繁执行合并操作,从而占用大量的CPU资源和存储设备带宽,导致迁移过程中前台读写性能出现明显下降。针对分布式数据库中因数据迁移带来大量不必要合并操作而引起的读写性能下降问题,提出了对数据迁移友好的键值存储系统DeltaDB。DeltaDB将LSM-Tree自顶向下纵向划分成若干个与整体形状类似的三角子树(Delta Tree),保证各层数据等比例分布,然后以Delta Tree为单位进行数据迁移,不改变LSM-Tree稳定的三角形结构,避免因数据迁移而导致的合并操作开销。在Delta Tree内部设计了动态合并策略,保证层与层之间的数据比例,在数据写入阶段同步执行合并操作来构造稳定的Delta Tree,转移数据迁移过程中的部分合并操作开销。此外,为了进一步限制数据迁移时的合并操作任务量,设计了线程调度与限流方案,按紧急程度对后台合并操作分级调度,并用令牌桶限流算法限制合并操作的设备带宽占用,减少写阻塞以稳定前台读写性能。基于Ti KV和RocksDB实现了DeltaDB,并将其作为TiDB的存储引擎部署在云平台上,与原生TiDB及其RocksDB存储引擎进行性能对比测试。结果显示,DeltaDB成功将迁移期间的合并操作次数减少31%~60%,并因此减少了45%~63%的写阻塞次数,进而将写阻塞导致的TiDB时延降低了34%~67%,每秒查询次数提升了10%~107%,有效缓解了TiDB在迁移场景下的读写性能下降问题。
其他文献
特征压缩可以减少特征数据量,对缓解机器的存储压力、降低传输时的通信资源消耗具有重要意义。特征是神经网络中最基础的部分,对各项深度学习任务的最终结果起着关键作用,因此在保证特征表达效果的前提下减少特征的数据量成为特征压缩研究的重难点。已有的特征压缩算法大都将特征通道平铺成大型二维矩阵,针对通道内的冗余进行压缩,很少考虑通道间的冗余。另外在足球视频视觉任务中提取的深度特征数据量大,给机器带来很大的计算
随着大数据技术的高速发展,越来越多的应用需要高吞吐、低延迟的缓存存储系统支持——通常由内存键值存储系统构成,比如被大量企业所采用的Memcached。但是,在类似Memcached的分布式内存存储集群中,节点故障或网络拥塞频发,导致数据在内存集群中可靠性不足。这使得系统不得不频繁访问后台磁盘节点,从而导致存储服务性能的降低。因此,内存键值存储系统的高可靠性保障对存储系统整体性能起到关键作用。相较于
互联网时代,生活节奏加快,在线浏览与碎片化阅读成为人们日常获取信息的主要渠道之一。然而,当前大数据背景下的海量信息无法满足用户快速获取高质量、高价值信息的需求,因此文章推荐系统应运而生。本论文通过对在线教育平台业务进行大数据统计分析和信息搜集,设计并实现了一个文章推荐系统:基于个性化推荐技术对拟推荐结果进行分类排序,从而得出用户兴趣偏好,最终把推荐结果推送给相应用户。在推荐系统中,当用户以及推荐物
近年来,容器云平台迎来了高速增长,但由于容器是操作系统层的虚拟化,隔离性远不如虚拟机,使得多租户的容器云平台面临着资源安全的巨大挑战。资源度量数据(如CPU使用率、内存使用率、磁盘I/O吞吐和网络I/O吞吐)能够反映宿主机和容器的资源使用情况,对其进行异常检测是保障容器云平台资源安全的重要手段。针对当前异常检测算法存在着难以挖掘周期特性、对噪声误检高等问题,提出了基于奇异谱变换和局部异常因子的异常
随着云计算的发展,越来越多的云服务提供商选择使用轻量高效的容器技术,来代替性能开销较大的虚拟机技术。为方便管理云环境中容器间的网络通信,容器Overlay网络模型被广泛使用,通过封装数据包的方式在物理链路上提供一层虚拟网络,避免了对宿主机网络的复杂配置,成为跨节点容器间的主流通信方式。然而,现有网络流量控制机制无法识别被Overlay网络模型封装的容器数据包,使得容器平台无法像控制计算资源和内存资
In the field of energy industry,PLC(programmable controller)industrial control technology is a key technology.It is the core technology to control the automatic and efficient operation of business.The
近年来,随着5G通讯、物联网、人工智能等技术的迅猛发展,各类数据每年呈指数型增长,其中80%的数据都会转变为冷数据保存。如何将海量的冷数据以安全稳定、绿色节能、低成本的方式进行长期保存成为数据中心所面临的日益严峻的问题。均匀介质体存储(Homogeneous Medium Volume Optical Data Storage,HMV-ODS)具有在标准蓝光光盘大小的盘片中廉价安全存储数十、甚至上
商业化新型非易失性内存(Non-Volatile Memory,NVM)产品的出现为实现大容量持久缓存提供了良好的机遇。在大容量持久缓存中,索引结构是决定缓存访问性能的关键因素。另一方面,持久化存储可避免缓存冷启动问题,但需要提供数据一致性保障机制,避免因意外宕机造成缓存数据不一致。因此,如何设计高效的索引结构并提供低开销的数据一致性保障机制成为构建大容量持久缓存的重要挑战。针对上述挑战,结合NV
远程直接内存访问(Remote Direct Memory Access,RDMA)技术的出现为构建高速分布式存储系统提供了新的可能,但是RDMA区别于传统以太网的通信特点,促使分布式系统需要重新考虑通信模块的线程架构以及数据传输方式。现有的分布式块存储系统传输过程中线程切换和锁争用开销巨大,针对这一问题提出贯穿式通信模型,一个线程贯穿整个RDMA传输周期,避免多线程通信时线程切换和锁争用开销。目
近些年来,随着全球数据产生量的爆发式增长,上层应用对底层存储的要求越来越高。与此同时,出现了一系列存储介质、存储协议、网络通信等方面的新兴技术。基于光纤的非易失性内存接口规范(Non-Volatile Memory Express over Fabrics,NVMeo F)扩展了非易失性内存接口规范(Non-Volatile Memory Express,NVMe)语义,广泛应用于分布式存储的高速