【摘 要】
:
随着大数据技术的高速发展,越来越多的应用需要高吞吐、低延迟的缓存存储系统支持——通常由内存键值存储系统构成,比如被大量企业所采用的Memcached。但是,在类似Memcached的分布式内存存储集群中,节点故障或网络拥塞频发,导致数据在内存集群中可靠性不足。这使得系统不得不频繁访问后台磁盘节点,从而导致存储服务性能的降低。因此,内存键值存储系统的高可靠性保障对存储系统整体性能起到关键作用。相较于
论文部分内容阅读
随着大数据技术的高速发展,越来越多的应用需要高吞吐、低延迟的缓存存储系统支持——通常由内存键值存储系统构成,比如被大量企业所采用的Memcached。但是,在类似Memcached的分布式内存存储集群中,节点故障或网络拥塞频发,导致数据在内存集群中可靠性不足。这使得系统不得不频繁访问后台磁盘节点,从而导致存储服务性能的降低。因此,内存键值存储系统的高可靠性保障对存储系统整体性能起到关键作用。相较于传统高存储开销的副本技术,纠删码技术作为低存储开销和高可靠性的数据冗余技术,正逐渐部署于包括Memcached在内的各类内存键值存储系统中。目前在Memcached应用的纠删码方案都仅适用于小对象,而无法有效处理在大数据分析中所产生的大对象工作负载。针对这个问题,首先设计了一个基于自编码的Memcached框架,通过对单个大对象等分后的数据块进行编码并构建条带,从而有效保障系统可靠性。同时,针对Memcached本身的“slab allocation”内存分配机制会产生内部碎片,而自编码方案会造成更多的内部碎片的问题,提出一种自适应编码参数调节算法,通过调整编码参数6)6)来降低内部碎片,提高内存存储效率,并保障可靠性不降低。另外,设计了块混合分布优化方案,以提高系统扩展性能和数据存储平衡性;以及校验块附加读优化方案,以提升尾延迟严重场景下的降级读性能。基于以上设计和优化方案,实现了基于Memcached的自编码内存键值存储系统(ASMem),并从数值分析和实验测试两个方面评估了系统的基础读写I/O性能、降级读性能、内存存储效率、扩展性能和数据平衡性。在雅虎云服务基准(YCSB)工作负载下,同传统的EC-Cache和Dynamo对比,ASMem降低了超过20%的内存存储开销,提高了15倍的扩展性能和38.8%的数据存储平衡性,同时保持了良好的基础I/O性能和降级读性能。
其他文献
从2000年初始,中国开始加大对核电建设的论证,国家核安全局组织各个部门重新评估如何保障核电站的安全,为了更好的实现纵深防御与多样性(Defense-in-Depthand Diversity,D3),做好核电站保护系统的备份,多样性驱动系统即第二套保护系统的设计成为各位专家、学者的研究重点。核电站的多样性驱动系统作为核电站保护系统的备份,在多样性上的技术研究和工程应用越来越重要,作为核电站仪控系
随着中国经济的发展,中国的国际影响力不断提升,国际学生学习汉语的热情席卷全球。随着5G网络的普及,汉语教育的技术和形式也在逐渐多样化,特别是在新冠疫情期间,远程学习技术得到迅速推广和普及,逐渐成为一种主流的教学模式。毫无疑问,在线教育课程也将是未来国际中文教育发展的一大趋势。随着直播和视频娱乐的兴起,越来越多的汉语学习者开始利用新媒体视频直播平台学习汉语。作为中国年轻一代集中的文化社区和视频媒体平
随着信息时代的发展,数据规模迅速扩张,更多的企业选择将业务部署到分布式集群上。然而分布式存储系统的资源是有限的,因此根据系统的存储能力为不同的用户制定合理的服务规则是非常重要的。分布式存储系统面向用户的服务质量(Quality of Service,Qo S)技术大多是在发送端来直接实施I/O限流的,然而这种方式并不能感知系统存储节点的资源使用情况,因此难以保证在各种应用场景下所有用户的性能需求。
当今,数据量爆发式增长,不断涌现的内存计算型应用使用内存作为主要数据存储载体,以提升整体性能。然而,大容量内存存储通常面临两个方面的挑战:首先,内存部分失效、机器断电等故障会导致其上的数据不可用,需要通过系统级冗余机制保障数据的可用性,但是过高冗余导致性能和存储效率下降;其次,数据访问行为是动态变化的,静态数据布局难以适应。因此,内存存储系统需要在运行时根据工作负载变化动态地调整内存的数据冗余布局
容器是一种轻量级的虚拟化技术,相比于传统的虚拟机,容器具有更快的启动部署速度、更小的运行开销和更高的部署密度,在云计算中得到了广泛的运用。弹性资源管理是云计算平台的重要特性,其能够在不中断服务的情况下动态伸缩资源配置以响应负载请求的变化,从而可以在保证应用服务质量的同时提高资源利用率。但是,在容器环境下,现有弹性CPU资源管理机制存在明显不足。首先,容器内运行的应用程序无法感知容器CPU资源的弹性
工业以太网协议的引入使列车控制系统具有更高的开放性,有利于打破信息闭塞现状,提高轨道列车运营效率和司乘人员车厢体验,但同时也带来日益严峻的信息安全威胁,因此加强列车控制系统安全防护势在必行。入侵检测是列车控制系统信息安全防护的关键技术手段之一。当前列车控制系统存在流量规模迅猛增长、未知攻击频繁出现等现象,基于规则的误用检测技术无法有效识别未知攻击,而基于机器学习的异常检测技术存在真实列车网络通信数
基于对等网络(Peer to Peer,P2P)的分散式存储网络是Web3.0的重要内容载体与核心组成部件。但P2P的匿名性引入了女巫攻击,为对抗女巫攻击及其变种,分散式存储网络常使用栈式深度鲁棒图(Stacked Depth Roubust Graph,SDR)算法减缓数据副本转换。但SDR算法的执行过程中生成的中间数据会占用大量内存,成为闲置设备加入分散式存储网络以及多个转换过程并行执行的主要
机器学习等读密集型应用场景对存储系统读性能的需求不断提升,拥有高带宽、低时延以及高并发性的NVMe SSD逐渐成为构建高性能存储系统的重要设备。目前主流键值存储系统通常采用日志结构合并树(Log-Structured Merge Tree,LSM-Tree)作为数据索引,然而LSM-Tree受限于自身结构和低效的I/O(Input/Output)访问模式,难以充分发挥NVMe SSD的优势。因此,
计算性能远快于存储性能的发展,传统冯·诺依曼架构下的“存储墙”问题日益凸显。基于存算一体架构的可计算存储系统通过将计算资源卸载到离数据更近的存储设备内部减少数据迁移,以缓解“存储墙”问题,成为研究热点。然而现有可计算存储研究基于定制专用软硬件协同平台,各平台间硬件与软件系统实现高度不统一,缺乏通用编程接口与运行环境且扩展性较差,各平台互不兼容、接口协议互不相同,限制了对可计算存储应用的探索。针对可
特征压缩可以减少特征数据量,对缓解机器的存储压力、降低传输时的通信资源消耗具有重要意义。特征是神经网络中最基础的部分,对各项深度学习任务的最终结果起着关键作用,因此在保证特征表达效果的前提下减少特征的数据量成为特征压缩研究的重难点。已有的特征压缩算法大都将特征通道平铺成大型二维矩阵,针对通道内的冗余进行压缩,很少考虑通道间的冗余。另外在足球视频视觉任务中提取的深度特征数据量大,给机器带来很大的计算