论文部分内容阅读
云存储作为云计算的存储基础正随着大数据时代的到来发挥着越来越重要的作用。云存储采用分布式架构来应对海量数据的存储。如何在可靠性、高性能等方面提高云存储的服务能力一直都是研究关注的热点。云存储中数据的安全依赖于它的副本技术。副本技术是一种数据管理机制,它将存储的数据复制多份并分布在多个节点上,以此来提高云存储系统的可靠性、负载均衡性、数据访问效率。本文以提高云存储的服务能力为目标,主要围绕分布式文件系统HDFS(Hadoop Distributed File System)的副本创建和放置策略进行研究。本文根据存储系统中文件访问的特点提出并设计了一种依据热度动态创建副本的算法。针对HDFS原有副本创建方式的不足,基于文件访问热度的副本创建算法通过综合考虑每个文件的访问频率以及访问时间的差异,使整个HDFS集群能够动态的调整每个文件的副本数。对于访问频率高的文件可以依据其特点为其增加副本的个数。增加的多个副本能够更好地分散访问请求,使整个系统不会出现热点故障,从而有效降低了系统出现单点故障的概率。另外由于有多个副本,可以使来自用户的访问请求就近选择副本数据,从而有效降低网络延迟。而对于访问频率低的数据,该算法可以在不影响其可用性的情况下为其分配更少的副本,这样就能有效的降低集群的负载。本文提出一种基于SVM(Support Vector Machine)的副本放置策略模型SRPM(SVM Replica Placement Model)。为了能够应对超大规模数据的存储以及提高容错性,Hadoop分布式文件系统HDFS采用一种机架感知的多副本放置策略。但HDFS在副本放置过程中没有综合考虑各节点服务器的差异性,这会导致集群出现负载失衡。并且HDFS在选择远程机架节点放置副本时采用随机方式,而这有可能导致节点之间的网络距离过长,使得在节点之间传输数据会消耗大量时间。针对以上问题,副本放置策略模型(SRPM)基于SVM通过综合考虑节点负载情况,节点硬件性能,节点网络距离来为副本找到一个最佳的放置节点。实验结果表明与HDFS原有的副本放置策略相比SRPM能更有效的实现负载均衡。