Hadoop分布式文件系统存储机制的研究与优化

来源 :西北大学 | 被引量 : 0次 | 上传用户：xibao774313066

【摘要】

：

随着互联网在各行各业的应用，数据以井喷之势呈指数暴增，传统的数据处理方式已经不再适用。这种背景下，各种数据存储和处理技术蓬勃发展，云计算和云存储应运而生。作为云平台最基

【作者】

：

吕艳峰

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2018年期

【关键词】

：

分布式文件系统存储机制 Hadoop平台 NameNode

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网在各行各业的应用，数据以井喷之势呈指数暴增，传统的数据处理方式已经不再适用。这种背景下，各种数据存储和处理技术蓬勃发展，云计算和云存储应运而生。作为云平台最基础的存储设施，Hadoop 分布式文件系统(HDFS)由于其高拓展、高容错、开源且能部署在低成本机器上等特性，一经问世就受到了各大企业和科研机构的青睐，在教育、金融、医疗、军事等领域发挥着举重若轻的作用。　　然而，原始的HDFS使用“一主多从”的架构，将元数据与真实文件分开存储，由NameNode管理对系统至关重要的命名空间。这样的设计在简化系统架构的同时也带来了NameNode的高可用性问题。此外，HDFS 最初被设计成以流式方式服务于大文件，并不适用于存储和分析海量小文件的应用，而当前各类社交和购物网站上每时每刻都在产生着小文件，直接存储不仅造成NameNode的内存压力，而且导致文件读写效率低下。　　针对NameNode的高可用性问题，本文对HDFS的核心运行机制进行了深入分析，并通过对早期几种HDFS高可用性解决方案进行对比，总结了解决高可用性问题的思路，并由此引入当前Hadoop2.X时代的HA方案。在对该方案各模块进行详细分析后，提出了在当前HA中再增加一个备用节点的方案。对元数据一致模块和主备切换模块做了相关优化，为探索在集群中拓展多个NameNode提供更多可能性。最后通过实验，验证了优化方案不仅能保证元数据的一致，而且能在主备NameNode节点都失效时实现自动切换，切换时间远小于原HA方案。　　针对HDFS处理小文件效率低下的问题，本文主要从存储和访问两方面出发，在原有的HDFS基础上增加一个小文件处理单元，完成文件的合并和索引文件的建立。合并文件时考虑了每个文件的体积，通过充分利用每个数据块空间来减少合并文件的数量。基于小文件的名称和类型，建立了该文件到数据块的映射及数据块内具体位置的两级索引，并根据文件类型对局部索引进行分片形成全局索引，放置在小文件处理单元中以加快检索速率。最后，在搭建好的Hadoop平台上测试了本文方案，与Hadoop自带的Har方案进行了对比，结果表明该方案可以有效提高HDFS在存储和访问小文件时的效率。

其他文献

遗传算法在计算机辅助考试系统自动组卷中的应用

为了了解学生的学习情况，分析教学的效果，都需要对学生进行考核、评价，而一份高质量的试卷是准确评价学生的基础。在日常教学中，为了组好一份试卷，教师往往要花费很多时间，是要利用

学位

组卷算法遗传算法多目标优化数学模型

嵌入式系统的存储卡接口技术研究

在嵌入式系统的工业、军事及个人应用中,许多场合需要使用存储器来存储大量的数据,而且要求断电时能够保存数据。存储卡的特点刚好满足了嵌入式存储的要求:体积小、功耗低、

学位

嵌入式系统LPC2210CF卡接口技术FAT16

基于多领域本体的探索式搜索的查询推荐方法研究

在搜索过程中,如果用户不了解目标领域,或者用户的搜索任务相对比较复杂,或者系统对信息的索引不充分,这种情况下用户的搜索行为通常称为探索式搜索。在探索式搜索中,由于基

学位

探索式搜索查询推荐领域本体资源消歧探索模型

基于SIP的多媒体会话业务接入系统的研究与实现

随着网络技术的迅速发展，人们对于多媒体通信的需求已经从单一的语音、视频业务提升为综合语音、视频、图片、文字于一体，并集成即时通信、文件传输、电子邮件等多种应用的统一

学位

SIP信令控制负载平衡性能测试

面向服务质量的服务组合方法研究

Web服务是基于网络、分布式、自包含、自描述、模块化的应用程序。越来越多的企业将自己的应用程序作为Web服务发布。相应的,服务的用户对服务的反应速度,服务的功能,服务的

学位

服务组合服务质量遗传算法

对解决背包问题的遗传禁忌搜索算法的研究

解决背包问题是解决优化组合所面临的问题之一，也属于NP难问题，在现实中有着广泛的应用背景，例如在解决大量的复杂组合优化问题进行算法设计时，它往往会作为一个子问题出现。由于

学位

背包问题遗传算法禁忌搜索组合规划NP难题

基于贝叶斯算法的垃圾邮件过滤系统的研究与设计

随着Internet的迅猛发展,电子邮件以使用方便、快捷、廉价、可靠的特点很快被广大网民所接受,已成为当前最流行的信息交流方式。电子邮件给我们带来便利的同时,垃圾邮件应运

学位

贝叶斯垃圾邮件过滤邮件解析中文分词

基于单播的选播QoS路由选择算法

随着互联网的高速发展，为了解决目前网络中存在的一些问题，把IPv6作为下一代的IP网络协议。IPv6下的QoS问题受也到了人们的广泛关注，要解决好IPv6网络下的QoS问题，就要单播、组播

学位

选播QoS路由遗传算法多QoS参数约束时延约束

基于高地址约束的优卡存储管理研究

目前,智能卡由于其安全性、便携性、移动性被广泛地应用于各个领域,并已经取得良好的经济和社会效益。随之而来的是导致用户所持的智能卡数目不断增加。所以目前众多智能卡开

学位

智能卡动态存储管理动态地址控制器高地址约束地址映射

数据挖掘技术在纳税评估系统中的研究与应用

随着税务信息化技术的快速发展,税务部门已经积累了大量的税务管理数据,如何有效利用这些数据更好为税收管理服务,已经成为目前税务部门关注的重点。2005年,江苏省地方税务局

学位

纳税评估指标体系数据挖掘决策树SLIQ算法

Hadoop分布式文件系统存储机制的研究与优化

其他学术论文