Hadoop分布式文件系统存储机制的研究与优化

来源 :西北大学 | 被引量 : 0次 | 上传用户:xibao774313066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网在各行各业的应用,数据以井喷之势呈指数暴增,传统的数据处理方式已经不再适用。这种背景下,各种数据存储和处理技术蓬勃发展,云计算和云存储应运而生。作为云平台最基础的存储设施,Hadoop 分布式文件系统(HDFS)由于其高拓展、高容错、开源且能部署在低成本机器上等特性,一经问世就受到了各大企业和科研机构的青睐,在教育、金融、医疗、军事等领域发挥着举重若轻的作用。  然而,原始的HDFS使用“一主多从”的架构,将元数据与真实文件分开存储,由NameNode管理对系统至关重要的命名空间。这样的设计在简化系统架构的同时也带来了NameNode的高可用性问题。此外,HDFS 最初被设计成以流式方式服务于大文件,并不适用于存储和分析海量小文件的应用,而当前各类社交和购物网站上每时每刻都在产生着小文件,直接存储不仅造成NameNode的内存压力,而且导致文件读写效率低下。  针对NameNode的高可用性问题,本文对HDFS的核心运行机制进行了深入分析,并通过对早期几种HDFS高可用性解决方案进行对比,总结了解决高可用性问题的思路,并由此引入当前Hadoop2.X时代的HA方案。在对该方案各模块进行详细分析后,提出了在当前HA中再增加一个备用节点的方案。对元数据一致模块和主备切换模块做了相关优化,为探索在集群中拓展多个NameNode提供更多可能性。最后通过实验,验证了优化方案不仅能保证元数据的一致,而且能在主备NameNode节点都失效时实现自动切换,切换时间远小于原HA方案。  针对HDFS处理小文件效率低下的问题,本文主要从存储和访问两方面出发,在原有的HDFS基础上增加一个小文件处理单元,完成文件的合并和索引文件的建立。合并文件时考虑了每个文件的体积,通过充分利用每个数据块空间来减少合并文件的数量。基于小文件的名称和类型,建立了该文件到数据块的映射及数据块内具体位置的两级索引,并根据文件类型对局部索引进行分片形成全局索引,放置在小文件处理单元中以加快检索速率。最后,在搭建好的Hadoop平台上测试了本文方案,与Hadoop自带的Har方案进行了对比,结果表明该方案可以有效提高HDFS在存储和访问小文件时的效率。
其他文献
为了了解学生的学习情况,分析教学的效果,都需要对学生进行考核、评价,而一份高质量的试卷是准确评价学生的基础。在日常教学中,为了组好一份试卷,教师往往要花费很多时间,是要利用
在嵌入式系统的工业、军事及个人应用中,许多场合需要使用存储器来存储大量的数据,而且要求断电时能够保存数据。存储卡的特点刚好满足了嵌入式存储的要求:体积小、功耗低、
在搜索过程中,如果用户不了解目标领域,或者用户的搜索任务相对比较复杂,或者系统对信息的索引不充分,这种情况下用户的搜索行为通常称为探索式搜索。在探索式搜索中,由于基
随着网络技术的迅速发展,人们对于多媒体通信的需求已经从单一的语音、视频业务提升为综合语音、视频、图片、文字于一体,并集成即时通信、文件传输、电子邮件等多种应用的统一
Web服务是基于网络、分布式、自包含、自描述、模块化的应用程序。越来越多的企业将自己的应用程序作为Web服务发布。相应的,服务的用户对服务的反应速度,服务的功能,服务的
解决背包问题是解决优化组合所面临的问题之一,也属于NP难问题,在现实中有着广泛的应用背景,例如在解决大量的复杂组合优化问题进行算法设计时,它往往会作为一个子问题出现。由于
随着Internet的迅猛发展,电子邮件以使用方便、快捷、廉价、可靠的特点很快被广大网民所接受,已成为当前最流行的信息交流方式。电子邮件给我们带来便利的同时,垃圾邮件应运
随着互联网的高速发展,为了解决目前网络中存在的一些问题,把IPv6作为下一代的IP网络协议。IPv6下的QoS问题受也到了人们的广泛关注,要解决好IPv6网络下的QoS问题,就要单播、组播
目前,智能卡由于其安全性、便携性、移动性被广泛地应用于各个领域,并已经取得良好的经济和社会效益。随之而来的是导致用户所持的智能卡数目不断增加。所以目前众多智能卡开
随着税务信息化技术的快速发展,税务部门已经积累了大量的税务管理数据,如何有效利用这些数据更好为税收管理服务,已经成为目前税务部门关注的重点。2005年,江苏省地方税务局