Hdfs云存储副本策略与重复数据删除的研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:cubqfire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断增长,海量数据信息的存储越来越依赖云存储系统。作为云存储系统的典型代表Hdfs,需要将每一个数据块的副本放置在多个节点上。副本放置策略的好坏,直接影响着数据存储的均衡和数据访问的速度。Hdfs默认的副本放置策略基本上是一个随机的选择策略,在系统运行一段时间后会产生数据分布不均衡的问题,从而导致数据的可靠性和读取性能的降低。另外,Hdfs中并没有对重复数据进行处理,造成很大的存储空间浪费。所以,对于Hdfs副本放置策略和重复数据的研究有十分重要的意义。   本文透彻分析了基于Hdfs的云存储系统架构,深入研究了基于Hdfs的默认副本放置策略。针对Hdfs默认副本放置策略存在的问题,提出了对于Hdfs副本放置策略的改进方案,在副本选择中优先考虑存储使用率低的节点,最终实现各节点数据存储的相对均衡。同时,本文研究了存储系统中的重复数据删除技术,设计实现了基于Hdfs的重复数据删除系统,在不影响Hdfs原有功能的前提下,为Hdfs集成了重复数据删除的功能,提高了Hdfs的存储空间利用率。   最后,本文对于Hdfs的副本选择过程进行了模拟。在模拟实验中,测试了使用默认副本放置策略和改进后的副本放置策略的运行效果,通过比较使用不同的副本放置策略集群中节点使用率的标准差,证实了改进后的副本放置策略在存储均衡方面有着更好的表现。同时也测试了HdfS的重复数据删除功能,实验中将一组文件写入到存储系统中,然后每次稍作修改,重复写入到系统中,最后记录集群中的数据使用的磁盘空间,并且与写入文件的逻辑大小进行比较。实验结果证实了在Hdfs中,使用重复数据删除技术可以有效的节省磁盘空间,降低磁盘开销。
其他文献
信息数据量的爆炸式增长使得存储设备的容量越来越大,如何有效地进行存储管理成为备受关注的问题。云计算的快速发展给存储技术带来了巨大挑战。云计算系统规模庞大,存储设备高
片上多核处理器系统已经成为处理器发展的主流趋势,针对此类系统的并行程序的运行时优化成为当前研究中的热点。并行线程调度优化已经成为提高系统资源利用率的关键之一,而传统
大学课程中物理实验是理工类院校提供综合性很强的实验能力培养课程,是学生对科学实验开展基本训练的基础课程和必修课程,同时也是培养大学生科学的严谨的实验操作能力、提升科
在当前互联网应用激增的背景下,基于Web的应用系统软件在社会生活的各个领域都得到了广泛的应用。政府和企业为提高工作效率、节省工作成本,将信息化建设作为重点工作内容,投入
网格作为一种新的计算能力,它可以对分布的、异构的资源进行共享及选择,并且能够解决大规模的计算问题,比如科学和商业上的,因此被越来越多的人所重视。网格技术是近几年新兴
随着网络存储系统中的信息量的爆炸式增长,系统的存储容量需求日益提高。而随着海量存储系统中的磁盘数目越来越多,由磁盘故障所引起的数据丢失的可能性也越来越大,系统的可靠性
目前DB2数据库技术作为信息系统的核心技术得到了不断的发展和完善。随着企业内的数据总量正在呈指数级增长,数据库系统的性能逐渐遇到了瓶颈,如何在有限的资源条件下提高数据
随着计算机和通信技术的高速发展,计算机网络在人们的工作和生活领域正在迅速普及,许多企业和组织为了充分利用和共享网络中的资源,都将自己的内部网络与互联网连接。但随之
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储