论文部分内容阅读
全球海量数据存储需求推动分布式存储系统发展成为由全球不同数据中心组成的集群分布式存储系统。其中,为了节约建设成本,节点往往是一些廉价且不稳定的设备,因此节点失效是常态。近年来,基于网络编码的再生码凭借其可以最小化修复带宽这一优势,逐渐成为传统分布式存储系统中节点修复策略的研究热点。广义再生码作为再生码的扩展,区分集群内外修复过程和修复带宽,显著降低存储开销和跨集群修复带宽,更加适用于集群分布式存储系统。然而,广义再生码的理论尚处于起步阶段,存在两方面问题有待开展研究:第一,广义再生码通过增加相对廉价的本地修复带宽的方式来降低跨集群修复带宽,但是由于缺乏广义再生码编码参数和修复带宽之间确切的数学关系,很难明确广义再生码降低系统修复成本的具体效果;第二,目前,广义再生码并未考虑集群间带宽成本差异,跨集群修复过程仍为对称修复,这限制了系统实际应用广义再生码。本文基于上述两个关键问题,开展的研究内容主要包括:基于网络编码介绍了相关基础理论,从而详细分析了再生码和广义再生码在修复模型、信息流图以及码字构造原理以及广义再生码更加优越的存储开销—跨集群修复带宽折衷,为后续广义再生码理论分析及模型优化研究奠定了基础。针对第一个问题,本文基于广义再生码的容量上界公式,通过线性规划明确了实现最小存储开销和最小跨集群修复带宽的参数,根据集群分布式存储系统特点,建立传输成本模型并提出全局修复带宽成本来统一衡量集群内外带宽成本。结合最优参数,本文分析广义再生码在不同本地帮助限制下的全局修复带宽成本,并得出本地帮助节点数与全局修复带宽成本的具体关系,为广义再生码参数配置提供了理论指导。针对第二个问题,本文将广义再生码集群间修复过程改进为非对称修复,并基于信息流图推导证明了该模型下广义再生码的可达容量上界,并依此推导了达到这一上界本地修复带宽的所需要的约束条件。基于容量约束和本地修复带宽约束,将非对称模型广义再生码的全局修复带宽成本建立为跨集群修复带宽的线性规划问题,并通过仿真求解,证明了非对称模型相比于对称模型,能够有效降低集群间带宽异构系统的修复成本,提升系统的可用性。