论文部分内容阅读
互联网环境下,每18个月新产生的数据量等于有史以来数据量之和。信息资源量的爆炸性增长,使人们对存储系统的存储容量、数据信息可用性、I/O性能等方面的要求越来越高。越来越多的大规模存储系统被制造出来并投入使用,其中大量的存储系统是采用性价比优秀的PC来搭建。在这样的大规模存储系统中,各组成部件失效经常发生,并引发存储系统中存储数据的丢失和损坏。因此,随着规模的膨胀,存储系统的可靠性问题变得越来越重要。要确保大规模存储系统的可靠性和数据可用性,就需要对高可靠存储系统涉及的关键技术进行研究。本文首先给出了一个高可靠存储系统的系统结构,在此基础上,提出了基于数据副本的自适应高可靠布局,适合于存储系统数据容错应用的短LDPC编码,基于失效预测的数据恢复机制PBDR。本文的主要工作有:(1)副本的放置策略涉及到大规模存储系统数据布局的冗余性和公平性。针对副本数据布局中存储系统的可靠性和数据的可用性问题,采用整数规划的形式描述了大规模存储系统中面向不同可靠性等级的存储设备进行数据布局的优化问题,并说明了这个问题是NP难的。进而设计了一种基于贪婪算法的高效数据分布算法,优化了存储节点可靠性的总代价和数据布局的公平性。(2)为优化存储系统多副本数据布局方案,设计了一个基于Markov模型的衡量系统可靠性的理论模型—VRDL模型(Variable Rank Data Layout模型)。通过VRDL模型可以衡量存储系统关键参数如副本阶数、系统规模、存储节点容量、失效检测延迟等一系列因素对存储系统可靠性的影响,从而为高可靠存储系统的设计提供理论指导。(3)将纠删码编码理论应用于大规模存储系统的存储节点失效应对策略中,建立了多存储节点环境下的纠删码容错编码模型,提出了一个针对多个存储节点失效场景下的基于纠删码的短LDPC码编码方案。此编码方案在确保大规模存储系统中存储节点数据高可用性的同时,还能提供优于RS码的读写性能。(4)由于硬盘容量的增长速度快于硬盘I/O传输带宽的增长速度导致了硬盘数据重构时间不断增长。这就使得存储系统的脆弱窗口时间也越来越长,增加了存储系统发生数据丢失的可能性。本文对存储节点组三种数据冗余机制:二路镜像,三路镜像和RAID5镜像构成的存储系统的失效数据恢复机制进行了分析讨论。进一步提出了一种基于失效预测的数据恢复机制PBDR (Prediction Based数据恢复机制,PBDR),在存储设备失效发生前,利用存储系统中空闲的存储节点资源,提前进行数据重构工作,可进一步提高存储系统的可靠性。