论文部分内容阅读
大数据时代给数据的存储和处理带来了极大的挑战,现代的云数据中心规模越来越大以满足海量的数据存储和处理要求。在Google云计算数据中心,服务器的规模已达到数以百万计,如此多的普通数据服务器全天候的提供服务,节点失效已成为常态,因此,如何有效提高数据的可靠性,保证系统在部分节点失效时依然能提供高质量的服务水平是值得深入研究的课题。本文针对构建低冗余度、高可靠性云存储系统的关键问题,在总结了当今数据可靠性增强理论和海量数据存储系统基本架构的基础上,对副本容错、纠删码容错、失效检测等方面进行了深入的研究,取得了一定的进展,具体如下:(1)针对云存储静态副本策略效率不高的问题,本文提出了一种云存储动态副本容错策略。动态副本容错策略包括副本的放置策略和副本的数量调整策略。副本的放置策略根据节点的相关性把节点分成不同的分组,并将不同的分组组织成一个虚拟的环,采用一致性Hash算法实现副本的组间布局,在组内以节点的性能和负载为衡量指标,采用TOPSIS(Technique for Order Preference by Similarity to an Ideal Solution)理论解决基于性能和负载的多维决策问题,选择高性能、低负载的节点存放副本;副本的数量调整策略综合考虑了文件的热度和副本节点的负载情况,为文件热度高、节点负载大的副本创建新副本,为文件热度小、节点负载小的副本删除部分副本。实验证明,本文设计的动态副本容错策略能自适应调整副本数量,有效提高系统性能。(2)针对纵式阵列码普遍存在容错性不高的问题,本文设计了一种适合云存储系统的高容错的具有MDS(Maximum Distance Separable)性质的阵列码XEX_,XEX_码在X码的基础上进行了扩展,将码字组织成nn?的二维阵列,按斜率???1/3-3/11/2-2/11-1),,,,,,(?的方式进行异或编码,并将编码冗余存放于不同列中。通过用代数形式表示XEX_码的编码过程,证明了XEX_码的MDS性质,并设计了基于“消重”的_)3,(XEXm码的译码算法。XEX_能容许三个以上磁盘同时失效,并且可以根据需要来设置其容错能力。(3)针对传统失效检测器在云存储系统中适应性不强的局限性,本文提出了一种基于时延预测的云存储自适应检错策略。该策略根据历史心跳信息采用指数平滑理论对网络延迟进行预测,相对于传统的均值预测方式,基于指数平滑的时延预测有更好的贴合度;采用动态均方差作为修正值,与传统的固定修正值相比显得更加灵活;在主从架构的云存储系统中采用双向检测模型,进一步提高了检测的精确度。(4)针对副本容错存在的空间开销大和纠删码容错中存在的访问效率不高的问题,本文设计了一种基于副本与纠删码的云存储混合容错机制。该机制以文件的访问热度为依据,自适应的选择文件的容错模式。对于热点文件采用副本容错方式进行存储,以提高数据的访问效率;对于冷门文件,采用纠删码容错方式进行存储,以提高数据的存储效率;而对于普通文件,则采用了副本与纠删码的混合容错方式进行存储,实现数据的访问效率与存储效率之间的平衡。本文的研究得到了国家自然科学基金项目(批准号:61272116,61472294),湖北省自然科学基金重点项目(批准号:2014CFA050)及武汉市应用基础研究计划(批准号:2015010101010021)的资助。