容错存储系统校验更新及修复优化技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:itbbs123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着数据的爆炸式增长,数据的存储规模越来越大,传统的单机系统已经无法满足高速增长的数据存储需求。分布式存储系统使用大量廉价商用服务器通过网络互联,可以提供极强的服务能力和扩展能力。然而,随着集群规模的变大、存储设备的增多,存储节点失效已不是偶然事件。因此,分布式存储系统对数据的可靠性要求尤为突出。分布式存储系统常用的容错技术有两种,多副本技术和纠删码技术。纠删码技术相对于多副本技术在提供相同容错能力的前提下,所需的存储开销更小,因此被存储系统广泛采用。纠删码技术通过对数据切块,计算并存储一定的冗余数据,当发生不超过系统容错能力的节点失效时,可以利用存活节点的数据恢复出失效节点的数据。所以,为保证部署纠删码的存储系统的可靠性,在数据块更新的同时需要更新与之关联的校验数据;同时,当存储校验数据的节点失效时,快速的故障数据恢复对保证分布式存储系统的可靠性也同等重要。本文主要研究了部署纠删码的存储系统校验更新及修复优化问题,主要研究内容与贡献如下:(1)校验数据更新优化研究随着业务规模的增长,已有的存储系统往往无法满足上层应用更大的存储容量和更高的访问带宽需求。当应用需求超过存储系统的负荷时,需要增加新的存储介质到已有的系统中,并将部分数据迁移到新的存储设备上,以均衡负载和提供更大的访问带宽。然而,数据迁移会造成大量校验更新,由此给系统造成额外负载。本文针对扩容过程中的校验数据更新问题,提出了一种优化策略EPU(Efficient Parity Update Algorithm)。首先,EPU根据用户请求访问情况调整扩容顺序,以最大化利用用户请求节省校验更新引发的I/O;其次,EPU通过比较不同校验更新方式的系统开销,选择最佳的校验更新方式,并尽可能的聚合校验更新I/O以减小系统开销。相比于传统扩容方法采用固定的校验更新方式,使用EPU,既可以减少扩容过程引发的系统带宽开销,也能加快扩容过程的完成。(2)校验数据故障恢复优化研究分布式存储系统的规模越来越大,有的甚至达到几百上千台集群规模。庞大的节点数目造成节点故障频发,当发生节点失效时,需要将失效节点修复,以维持数据的可用性。并且,数据的修复速度应尽可能的快,因为如果修复时间过长,修复期间有可能发生更多节点失效,若失效节点数量超过系统的容错能力,将造成数据的永久丢失。因此,数据的快速修复对于系统的可靠性至关重要。本文提出了一种基于局部校验和全局校验相结合的新型编码ESRC(Efficient Single-failure Recovery Code)码,该编码可以高效地修复单个节点故障,与现有的常用纠删码相比,ESRC码可以提高单个校验节点的修复效率,并维持较低的存储开销。
其他文献
车辆路径问题在物流、组合优化以及管理学领域等都受到许多学者的广泛关注,许多实用的理论方法已经运用到实际案例中,对人们的日常生活生产都起到了较大的影响。车辆路径问题作
OLAP(Online Analysis Processing)是数据仓库中一种重要的决策支持分析工具。传统的OLAP设计基于历史数据的离线批量计算,制约了分析的实时性。在当今瞬息万变的商业社会,决策
移动计算环境下,客户端缓存的方法可以较好的解决网络弱连接和断接下客户访问数据的问题。语义缓存是通过客户查询语义信息描述的相关性而建立起的一种客户缓存。客户端具有缓
近年来,互联网信息资源急剧膨胀,带有个人情感色彩的言论越来越多,分析这些文本有着很大的现实意义,因此如何有效地抽取与过滤互联网上的信息,如何对文本进行情感倾向分析成为当前
随着Web服务的广泛应用和网络攻击手段的层出不穷,在可靠性、保密性、数据完整性和不可否认性等方面Web服务都面临巨大的安全挑战。保证Web资源的授权访问,保证网络数据的安全
在无线传感网中,传感器节点在电源能量、计算能力、通信能力等方面具有局限性,节点间如何协作并发挥其整体综合作用,如何延长网络生存期,是设计无线传感网路由算法的重点和难
语音生成与获取是动力学、声学、数学等诸多基础学科的一个比较前沿的重要交叉点,它也是机器人研究领域中的一个重要分支,对它的理论研究不仅可以使我们更好地分析语音的各个
随着计算机网络的发展,大量有价值的数据依靠传统的搜索引擎技术已经不能被有效地检索出来,这些内容称为Deep Web。为了有效地对Deep Web中的数据资源进行检索,人们提出了语义We
多CCD大幅面彩色扫描仪作为一种宽幅图纸高精度扫描数字输入的设备,在军事、测绘等特殊领域有着广泛的应用。正是由于宽幅和高精度的要求,不可避免的给这种扫描仪设备的生产调
位置服务的广泛应用,已经为科研提供了大量人类基础轨迹数据,一些位置服务系统每天产生的轨迹数据可以达到TB甚至PB,与此同时位置服务业务应用的多样性导致数据的格式不一致(例如