论文部分内容阅读
随着互联网技术的高速发展,我们已经步入了大数据时代。在与日俱增的数据规模面前,传统的关系型数据库显得无能无力,而分布式计算和分布式存储技术受到广泛关注。分布式存储是分布式计算的存储部分,是易于扩展的、虚拟化的存储资源池。为了满足大规模存储应用的需求,提供可靠的海量数据存储服务,分布式存储系统使用冗余机制来保障数据的高可用性和可靠性。副本和编码是分布式存储系统目前主要的两种冗余机制。副本即对文件进行拷贝,而编码是通过对文件块进行线性或非线性处理生成编码块的冗余技术。由于数据规模异常庞大,采用副本冗余机制导致分布式存储系统需要付出巨大的存储空间开销。虽然编码冗余机制可以降低存储空间开销,但它需要额外的编解码时间对数据进行修复。面对这些高昂而又无法避免的额外开销,我们可以利用不同的冗余机制来优化分布式存储系统其他方面的性能,如通过副本降低分布式系统能耗和利用编码冗余机制减少文件修复时间。本文主要研究了分布式存储系统的副本和编码两种冗余机制。针对使用副本作为冗余机制的分布式文件系统HDFS,我们设计了一种节能策略来降低分布式存储系统的能耗。这部分的工作主要包含两部分:节能的文件备份策略(EFR)和节能的作业调度策略(EJS)。为了让EJS达到降低能耗的目的,EFR使用了一种简单又有效的方式去放置文件的文件块。针对使用编码作为冗余机制的网络异构环境下的分布式存储系统,我们提出了一种能够降低文件修复时间的弹性树形结构再生码算法FTR。为了验证FTR算法的可用性和有效性,我们开发了一个实际的基于再生码的分布式文件存储系统RCDFS,并对RCDFS的设计和实现细节进行了详细的描述。通过实验表明,Hadoop使用EJS和EFR结合的策略可以让系统节约50-60%的能量,另一方面,FTR算法能够有效的在RCDFS上运行及其在网络环境异构性明显的情况下,其数据修复时间低于STAR算法。