基于Hadoop的云存储平台的研究与实现

被引量 : 85次 | 上传用户:huangwj03
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,云计算日益成为国内外关注的焦点。当云计算系统中运算和处理的核心是大量数据的存储时,云计算系统就衍变为一个云存储系统。云计算的飞速发展,使云存储也成为当前业界最热门的研究领域。云存储作为一种新的服务,它将用户的数据存储在云端服务器上,用户只要通过互联网登录云存储服务系统,就可以在任何地方任何时候访问自己的数据,并且不用担心数据会丢失。Hadoop是Apache开发的一种开源的分布式计算平台,在分布式计算和数据存储方面表现出优异的性能,引起了国内外知名IT企业的关注,各大企业和科研机构纷纷投入研究,使得Hadoop在云计算和云存储中的应用越来越广泛。HDFS是Hadoop的分布式文件系统,它具有强大的数据存储能力,适合云存储系统。但它在设计上存在一些缺陷,性能上并不完美,要想大规模推广使用,必须先进行改进。本文主要研究基于HDFS的云存储模型,针对HDFS在小文件存储不理想和副本分布不均衡两个问题上对其进行改进,并使用改进后的HDFS搭建云存储平台。主要工作如下:1. HDFS为确保数据存储的可靠性,采用副本机制将文件的副本存储在集群中。文件副本以数据块的形式存放在不同的DataNode上,然而HDFS默认的副本分布策略具有随机性,不能保证副本均衡地分布在集群中。为解决这一问题,本文提出了一种基于加权评价指标矩阵选择距离最优解最近、最差解最远的节点的算法,对权值的确定采用层次分析法进行计算,在兼顾节点负载的同时,着重考察空间使用率,选择最合适的DataNode来放置数据副本,使各DataNode的空间负载整体均衡。2. HDFS是为大文件设计的,不适合大量小文件的存储。相同数据量情况下,小文件会浪费NameNode的内存,同时降低访问效率。针对这一问题,本文对HDFS的文件存储过程进行改进,在文件上传到HDFS集群之前先进行判断,如果是小文件则需要进行合并优化处理,并将小文件的索引信息以键值对的形式保存在索引文件中。改进方案减小了大量小文件对NameNode内存的消耗,并提高了访问效率。3.进行大量实验,将原HDFS与改进方案进行对比,实验结果证明,本文提出的改进方案具有更好的效果,能够改善HDFS的性能。使用改进后的Hadoop搭建存储集群,开发Web应用程序,通过B/S模式模拟云存储平台,实现云存储的相关功能。
其他文献
公立医院绩效考核管理是我国医药卫生体制改革中一个重要的研究课题,也是我国医院管理工作的一个重要组成部分。随着医药卫生体制改革的深入,做好公立医院的运行和考核管理就显
本文采用钛酸锶钡(BaxSr1-xTiO3)变容管作为调谐元件,结合射频微波、自动化控制、软件编程等技术研制了射频自适应阻抗匹配模块。并完成了电调微带天线中可调输出电压单元部分
本文从理论研究、新型设计、测量技术、材料应用等方面论述了扬声器技术的发展,评述了国内外发展动态.。
随着高等教育规模急剧扩大,高校管理带来了一定的难度,信息技术的发展,高校教育信息化高速发展,不少高校已经建立了高校信息管理系统,如教务管理系统、学生工作管理系统、科研管理
以广东省潮州市饶平县2013年完成的2 221.27 hm2碳汇造林项目的抽样检查验收为例,对所抽取检查小班的抽样方法、抽样调查数据处理方法,如计算平均值、标准差、抽样绝对误差、
<正>近两年,国家粮食和物资储备局以确保国家粮食安全为中心,加快推动高质量发展,构建现代化粮食产业体系,突出抓好"三链协同",重点建设"四大载体",深入实施"五优联动",全国
在工会组织中充分发挥内部审计作用,能够促进工会经费的筹集、工会资产的有效管理和保值增值。应该不断拓展工会组织内部审计领域,提高审计人员素质和创新审计工作方法,充分发挥
介绍了聚乳酸的合成工艺一步法、两步法及其改进,通过分析聚乳酸自身存在的特性及局限性,介绍了近几年聚乳酸的改性发展,包括耐热性的改性,亲水性改性以及机械性能方面的改性
水体的运用在园林景观中起着不可忽视的作用,园林理水有着丰富的文化内涵和独特的构思手法,所塑造的如诗如画的水环境,让世人叹为观止。由此,探索园林理水的地韵之美有利于增
翻开现代世界超级摩天大楼的建筑施工档案可以看到,每一幢令世界震撼超级摩天大楼都和大型动臂塔机紧密连在一起,大型动臂塔机的手臂描绘着一个又一个新历史记录。纽约世界贸