HDFS的副本管理策略研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:gghe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
云存储作为云计算的存储基础正随着大数据时代的到来发挥着越来越重要的作用。云存储采用分布式架构来应对海量数据的存储。如何在可靠性、高性能等方面提高云存储的服务能力一直都是研究关注的热点。云存储中数据的安全依赖于它的副本技术。副本技术是一种数据管理机制,它将存储的数据复制多份并分布在多个节点上,以此来提高云存储系统的可靠性、负载均衡性、数据访问效率。本文以提高云存储的服务能力为目标,主要围绕分布式文件系统HDFS(Hadoop Distributed File System)的副本创建和放置策略进行研究。本文根据存储系统中文件访问的特点提出并设计了一种依据热度动态创建副本的算法。针对HDFS原有副本创建方式的不足,基于文件访问热度的副本创建算法通过综合考虑每个文件的访问频率以及访问时间的差异,使整个HDFS集群能够动态的调整每个文件的副本数。对于访问频率高的文件可以依据其特点为其增加副本的个数。增加的多个副本能够更好地分散访问请求,使整个系统不会出现热点故障,从而有效降低了系统出现单点故障的概率。另外由于有多个副本,可以使来自用户的访问请求就近选择副本数据,从而有效降低网络延迟。而对于访问频率低的数据,该算法可以在不影响其可用性的情况下为其分配更少的副本,这样就能有效的降低集群的负载。本文提出一种基于SVM(Support Vector Machine)的副本放置策略模型SRPM(SVM Replica Placement Model)。为了能够应对超大规模数据的存储以及提高容错性,Hadoop分布式文件系统HDFS采用一种机架感知的多副本放置策略。但HDFS在副本放置过程中没有综合考虑各节点服务器的差异性,这会导致集群出现负载失衡。并且HDFS在选择远程机架节点放置副本时采用随机方式,而这有可能导致节点之间的网络距离过长,使得在节点之间传输数据会消耗大量时间。针对以上问题,副本放置策略模型(SRPM)基于SVM通过综合考虑节点负载情况,节点硬件性能,节点网络距离来为副本找到一个最佳的放置节点。实验结果表明与HDFS原有的副本放置策略相比SRPM能更有效的实现负载均衡。
其他文献
近年来,随着互联网技术的快速发展,个人或家庭接入互联网的带宽也越来越大,与之而来的各种各样的新型互联网服务方式。视频点播服务也是其中之一并且已经成为互联网的主流业
无线传感器网络已经成为当今的热门研究领域之一,而如何将IPv6与传感器网络结合也成为其中的一个重要议题。IETF成立的6LoWPAN工作组,专门从事基于IEEE 802.15.4标准的IPv6协议
随着SoC系统级设计的飞速发展,从更高层次描述系统的行为,从而减少仿真时间以加速设计收敛,变得非常迫切。特别,当要建模的目标系统十分复杂时,设计者需要对目标设计更早的有
随着面向对象技术的发展,如何设计可复用的面向对象软件越来越受到关注。当应用软件的复杂度不断加大时,单凭个人的设计经验已经不能解决所有的设计问题,利用资深软件工程师
数字图像处理是指为了获得期望的结果,对数字图像进行处理和变换的技术。图像能够让信息的传输和表达更加的简单快捷。随着信息技术的不断发展,数字图像在新闻、医学、国防、
虚拟实验作为一种新的实验教学模式,弥补了传统实验设备的一些缺陷,是实验教学的一个新的发展方向。组成原理是计算机专业的一门重要的专业基础课。对于这种实践性很强的课程
目前,随着信息总量越来越快地增长,信息类型也越来越复杂,文字、图片、音频、视频等要素不断充斥着互联网,当今的网络正朝着要素多元化的方向不断发展。在这样一个类型和数量
DICOM(Digital Imaging and Communication in Medicine)标准是医学影像环境中的高层网络通信协议,说明了影像系统之间通过网络进行图像交换和实现互操作的规范,使得不同厂商
图像检索一直以来就是学术界和工业界的研究热点领域,随着信息技术的发展和大数据技术的火热,人们在互联网上交流方式越来越集中到图像、视频等多媒体形式上,图像检索在互联
风能,作为一种清洁、环保、安全、可再生的绿色能源,近些年得到了快速的发展。随着我国关于风力发电的“十二五”专项规划的执行,风电产业已经取得了令人瞩目的成绩,成为新能源领域的佼佼者。但是由于风速具有很强的随机性和不可预测性,从而会引起整个风场功率产生较大的波动性和间歇性,进而对风电并网、电压控制等带来一定的困难。有数据显示,当风电的穿透功率超过8%时,会对电网的安全性与稳定性带来严重的危害,在一定程