基于Hadoop的海量小文件存储性能优化研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:kekedehome
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在这个云计算和大数据飞速发展的时代,每天都有不计其数的数据产生,其中小文件比例相当高。许多大型的公司使用Hadoop来进行海量数据的分布式存储和计算,而当集群中存在大量小文件时,Hadoop的性能十分低下。本文针对Hadoop在存储小文件时的问题,提出了一种结合Hbase和文件合并索引来对不同特征小文件进行处理的方案,并设计了基于多队列置换算法的缓存,并通过实验验证,减少了 Namendoe内存占用以及读写大量小文件的耗时,优化了存储性能。本文首先分析了 Hadoop存储海量小文件的研究现状,并介绍了 Hadoop的框架结构,接着对分布式文件系统HDFS、分布式计算框架MapReduce以及分布式数据库Hbase的工作机理进行了深入研究,重点分析了 HDFS的架构以及读写文件的流程,总结出HDFS在存储海量小文件时Namenode内存占用高及读写效率低的原因。然后,本文对小文件存储中存在的问题进行分析,对小文件的存储方案进行整体设计,对不同特征的小文件文件采用不同处理方法。针对大量Namenode内存占用的问题,本文采用根据文件类型特征进行合并的方案,从而使文件数量大大减少,并提高文件写入效率。对于小文件读取性能低下的问题,本文为小文件设计了基于单词查找树的索引,保证小文件可以完整高效的从合并后的大文件中取回,为了进一步提高文件读取效率,应对部分热点数据的频繁读取,在Datanode中设计了基于多队列置换算法的缓存,避免了热点数据大量频繁的请求磁盘,导致读取性能差的问题。由于文件合并后需要将索引存储在内存中,如果存在大量的超小文件,会使索引文件过大,导致检索性能下降。本文提出在文件写入集群时,对文件进行筛选识别处理,将超小文件存储到设计好的Hbase表中,使超小文件的文件的存储便捷高效,提高超小文件的检索性能,而且避免了 Hbase对较大文件处理时的低效。而普通的小文件则采用合并索引缓存的流程处理,使方案可以在不同文件分布的场景下,都能表现出较高的性能。最后,本文搭建Hadoop集群,将设计的方案与原始的HDFS以及其他方案进行比较,并在Namenode内存占用以及小文件读写性能等方面进行对比分析。实验表明,本文提出的方案可以大大减少Namenode内存占用,并在提高了集群对海量小文件的读写性能。
其他文献
<正>微电影的出现打破了"精英"与"草根"的界限。而与最初的纯草根出身不同,最新一批微电影在广告商、视频网站的"加持"下已显示出更多商业属性。如何平衡内容与商业?微电影能
本论文针对酒钢不锈钢厂生产的SUS304奥氏体不锈钢薄板延伸率小的实际情况,进行了较为系统的实验研究,分析了在冷轧过程中SUS304组织演变过程、应变诱发马氏体含量的变化规律
通过介绍图像识别技术的概念及其应用环节,展现了其在自动化生产线的应用场景,并通过某工厂的应用实践,说明了该技术可以大幅减少人工的识别成本,降低人员和设备投入,还可以
针对柴油机气门摇臂轴支座传统铸造成型的弊端,本文采用螺旋压力机模锻来研究大型柴油机气门摇臂轴支座的成形新工艺。分析了飞边槽尺寸对锻件充填率的影响。对比了4种飞边槽
景观体育是近两年来出现的新兴名词,它结合了美丽的自然风光,高耸的人文建筑与体育赛事,形成了一道独特的风景线。在欧美等发达国家,景观体育其实早已出现,如著名的环法自行
P2P网络贷款平台发展之初,即是为了促进借款者和贷款者之间的金钱交易;然而,中国由于缺乏一定的法律规范,使其不断异化成另类金融机构,并呈现出无序的发展状态。以P2P网络贷
在300 kg带熔沟低频感应炉内熔炼纯铜,用300 kg带熔沟低频感应保温炉连铸,获得表面光洁、无裂纹和无氧化夹杂的d15mm紫铜线坯,未经中间退火可顺利地从d15mm铜线坯直接拉伸成d
采用水热法合成了孪连柱状ZnO纳米粉体,通过X射线衍射仪(XRD)、扫描电镜(SEM)、红外光谱仪(IR)和X-射线光电子能谱仪(XPS)等对产物的物相、微观形貌、表面化学键及化学组分进
针对多目标粒子群优化算法收敛性和多样性难以平衡的问题,提出一种利用问题的结构信息来解决多目标问题的自组织多目标粒子群算法。通过自组织映射网络发现种群和非支配解集分
随着全球一体化进程的加速推进,全球化和地方化的相互作用越来越强烈。作为全球或地方人类活动最重要的载体—城市,在这种背景下呈现出一系列的新变化,如流动性加快、空间结