基于Hadoop的海量小文件存储性能优化研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户：kekedehome

【摘要】

：

在这个云计算和大数据飞速发展的时代,每天都有不计其数的数据产生,其中小文件比例相当高。许多大型的公司使用Hadoop来进行海量数据的分布式存储和计算,而当集群中存在大量

【作者】

：

张硕

【出处】

：

湖南大学

【发表日期】

：

2004年期

【关键词】

：

Hadoop 小文件 HDFS Hbase 合并索引缓存集群

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在这个云计算和大数据飞速发展的时代,每天都有不计其数的数据产生,其中小文件比例相当高。许多大型的公司使用Hadoop来进行海量数据的分布式存储和计算,而当集群中存在大量小文件时,Hadoop的性能十分低下。本文针对Hadoop在存储小文件时的问题,提出了一种结合Hbase和文件合并索引来对不同特征小文件进行处理的方案,并设计了基于多队列置换算法的缓存,并通过实验验证,减少了 Namendoe内存占用以及读写大量小文件的耗时,优化了存储性能。本文首先分析了 Hadoop存储海量小文件的研究现状,并介绍了 Hadoop的框架结构,接着对分布式文件系统HDFS、分布式计算框架MapReduce以及分布式数据库Hbase的工作机理进行了深入研究,重点分析了 HDFS的架构以及读写文件的流程,总结出HDFS在存储海量小文件时Namenode内存占用高及读写效率低的原因。然后,本文对小文件存储中存在的问题进行分析,对小文件的存储方案进行整体设计,对不同特征的小文件文件采用不同处理方法。针对大量Namenode内存占用的问题,本文采用根据文件类型特征进行合并的方案,从而使文件数量大大减少,并提高文件写入效率。对于小文件读取性能低下的问题,本文为小文件设计了基于单词查找树的索引,保证小文件可以完整高效的从合并后的大文件中取回,为了进一步提高文件读取效率,应对部分热点数据的频繁读取,在Datanode中设计了基于多队列置换算法的缓存,避免了热点数据大量频繁的请求磁盘,导致读取性能差的问题。由于文件合并后需要将索引存储在内存中,如果存在大量的超小文件,会使索引文件过大,导致检索性能下降。本文提出在文件写入集群时,对文件进行筛选识别处理,将超小文件存储到设计好的Hbase表中,使超小文件的文件的存储便捷高效,提高超小文件的检索性能,而且避免了 Hbase对较大文件处理时的低效。而普通的小文件则采用合并索引缓存的流程处理,使方案可以在不同文件分布的场景下,都能表现出较高的性能。最后,本文搭建Hadoop集群,将设计的方案与原始的HDFS以及其他方案进行比较,并在Namenode内存占用以及小文件读写性能等方面进行对比分析。实验表明,本文提出的方案可以大大减少Namenode内存占用,并在提高了集群对海量小文件的读写性能。

其他文献

微电影能否拥有大未来

<正>微电影的出现打破了"精英"与"草根"的界限。而与最初的纯草根出身不同,最新一批微电影在广告商、视频网站的"加持"下已显示出更多商业属性。如何平衡内容与商业?微电影能

期刊

微电影上海国际电影节金马奖

SUS304奥氏体不锈钢冷轧及退火工艺对组织和性能的影响

本论文针对酒钢不锈钢厂生产的SUS304奥氏体不锈钢薄板延伸率小的实际情况,进行了较为系统的实验研究,分析了在冷轧过程中SUS304组织演变过程、应变诱发马氏体含量的变化规律

学位

SUS304冷轧退火处理显微组织力学性能

图像识别技术在制造企业的应用

通过介绍图像识别技术的概念及其应用环节,展现了其在自动化生产线的应用场景,并通过某工厂的应用实践,说明了该技术可以大幅减少人工的识别成本,降低人员和设备投入,还可以

期刊

图像识别图形处理算法生产成本图像学习质量控制

飞边槽结构对柴油机气门摇臂轴支座模锻质量的影响

针对柴油机气门摇臂轴支座传统铸造成型的弊端,本文采用螺旋压力机模锻来研究大型柴油机气门摇臂轴支座的成形新工艺。分析了飞边槽尺寸对锻件充填率的影响。对比了4种飞边槽

期刊

摇臂轴支座模锻模具飞边槽

景观体育与社会经济发展的研究

景观体育是近两年来出现的新兴名词,它结合了美丽的自然风光,高耸的人文建筑与体育赛事,形成了一道独特的风景线。在欧美等发达国家,景观体育其实早已出现,如著名的环法自行

学位

景观体育景观体育赛事社会经济

论新形势下阿里金融小微信贷的发展战略

P2P网络贷款平台发展之初,即是为了促进借款者和贷款者之间的金钱交易;然而,中国由于缺乏一定的法律规范,使其不断异化成另类金融机构,并呈现出无序的发展状态。以P2P网络贷

期刊

阿里金融小微信贷P2P网络贷款平台法律风险监管机制

水平连铸纯铜线坯成型技术及机理

在300 kg带熔沟低频感应炉内熔炼纯铜,用300 kg带熔沟低频感应保温炉连铸,获得表面光洁、无裂纹和无氧化夹杂的d15mm紫铜线坯,未经中间退火可顺利地从d15mm铜线坯直接拉伸成d

期刊

纯铜线坯水平连铸机理

孪连柱状ZnO的水热合成及其气敏性能研究

采用水热法合成了孪连柱状ZnO纳米粉体,通过X射线衍射仪(XRD)、扫描电镜(SEM)、红外光谱仪(IR)和X-射线光电子能谱仪(XPS)等对产物的物相、微观形貌、表面化学键及化学组分进

期刊

孪连柱状ZnO水热合成气敏性能丙酮乙醇

自组织多目标粒子群优化算法

针对多目标粒子群优化算法收敛性和多样性难以平衡的问题，提出一种利用问题的结构信息来解决多目标问题的自组织多目标粒子群算法。通过自组织映射网络发现种群和非支配解集分

期刊

多目标粒子群优化自组织映射种群分布精英学习策略

从网络研究到城市网络

随着全球一体化进程的加速推进,全球化和地方化的相互作用越来越强烈。作为全球或地方人类活动最重要的载体—城市,在这种背景下呈现出一系列的新变化,如流动性加快、空间结

学位

社会网络复杂网络城市网络分块模型重力模型聚类系数

基于Hadoop的海量小文件存储性能优化研究

与本文相关的学术论文