面向Hadoop的小文件存储机制研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户：qwer2

【摘要】

：

Hadoop是当前流行的大数据处理平台,因其高扩展性、高可靠性等优点得到业界广泛应用。Hadoop的核心组件HDFS(Hadoop Distributed File System)可高效存储超大文件,具有高容错

【作者】

：

王坤

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

小文件问题 Hadoop分布式文件系统合并算法存储优化元数据管理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Hadoop是当前流行的大数据处理平台,因其高扩展性、高可靠性等优点得到业界广泛应用。Hadoop的核心组件HDFS(Hadoop Distributed File System)可高效存储超大文件,具有高容错、高吞吐量等特性。然而HDFS存储海量的、体积远小于数据块大小的文件时,却会由于HDFS访问特性和元数据管理模式等因素,引发“小文件问题”,即表现为:(1)客户端需频繁跳转数据节点存取小文件,文件读写性能差;(2)集群运行时,名字节点将全部元数据载入内存管理,但内存有限难以管理海量小文件元数据;(3)名字节点启动时加载海量元数据耗时久,造成集群长时间不可用。随着互联网中图片、日志等小文件的日益增多,Hadoop常要存储或处理大量小文件,如何研究解决Hadoop小文件问题,受到了学术与工业界的持续关注。现有研究成果主要通过将小文件聚集成大文件,减少文件和元数据数量,从而缓解名字节点内存压力,实现存储大量小文件的目标。但是,现有方案存在小文件跨块、块空间浪费等问题,并由于牺牲了小文件元数据,造成HDFS无法直接对小文件执行目录命令、访问控制等文件系统管理操作。本文针对小文件访问和小文件元数据管理两方面展开研究,综合解决Hadoop平台小文件问题。针对海量小文件读写性能差的问题,本文提出一种海量小文件多级优化存储方法。该方法首先采用均衡合并队列算法,将小文件合并为数据块体积的大文件,充分利用块空间并避免小文件被跨块存储,减少存储文件时的节点跳转,提高写入速度。其次通过布隆过滤器与文件映射索引,结合预取缓存策略,缩短读取文件的查询和传输时间,提高读取速度。仿真实验验证,该方法能提供高效的小文件读写性能。针对名字节点难以管理海量小文件元数据的问题,本文提出一种基于日志合并树与扁平目录的元数据管理方法,弥补已有方案在小文件元数据管理上的不足。首先设计了一种基于日志合并树和内存映射文件的元数据存储组件,将名字节点管理元数据的位置由内存转移至磁盘,提高元数据管理规模。其次对目录与元数据进行扁平化处理,名字节点无需重建树形目录,缩短其加载和访问元数据的时间。仿真实验结果表明,该方法可实现高吞吐的元数据操作性能,能达到数倍于原始HDFS的元数据管理规模。

其他文献

改进型硅藻土AC-16沥青混合料配合比设计及路用性能试验研究

以AC-16沥青混合料为试验对象,采用改进型硅藻土改性沥青作为胶结料,通过路用性能试验,验证不同改进型硅藻土掺量下沥青混合料的水稳定性能和高温稳定性。试验结果表明：改进型

期刊

道路工程硅藻土改性沥青沥青混合料路用性能

传统媒体与网络媒介的议程互动

传播是一种符号信息的流动。信息科技的进步，使得新闻信息交流日益频繁．传递方式日益丰富多样。传统媒体与网络媒介之间的竞争与融合．构成现代文明社会信息流“英雄交响乐”的主

期刊

新闻媒体网络媒介议程互动竞争与融合

江西省服务业就业增长：整体态势与行业结构研究

文章以江西省的产业结构和就业结构为基础，试图描述江西省服务业就业增长的整体态势和行业结构。文中从就业率和就业弹性两个方面描述江西省服务业就业增长的整体态势，并深入服

期刊

服务业就业等就业线就业率就业弹性

柴胡龙骨牡蛎汤加减治疗冠心病并发抑郁焦虑患者的临床观察

目的探讨对冠心病并发抑郁焦虑患者采用柴胡龙骨牡蛎汤加减治疗的临床应用效果。方法随机选择我院2015年12月~2018年12月收治的冠心病并发抑郁焦虑症患者98例,按照电脑随机选

期刊

冠心病焦虑抑郁柴胡龙骨牡蛎汤效果观察

中国电工技术学会风力发电技术专业委员会征文通知

为推动风力发电技术的发展及应用，交流国内外风力发电技术发展状况及其应用研究成果，探索风力发电技术进步和创新。根据风力发电技术专业委员会决议，拟于2015年7月份在哈尔滨召

期刊

风力发电技术技术专业委员会中国电工技术学会征文通知技术研讨会科技工作者研究成果技术进步

油浸式变压器冷却系统节能运行控制策略研究

针对现有冷却器控制方式的不足,基于热电类比理论建立了变压器热路模型,结合环境温度及冷却方式变化时模型参数的不同求取方法,制定了高效节能的冷却器运行策略。在准确计算

期刊

油浸式变压器热电类比法节能环保热点温度冷却系统

基于CO2排放的车辆路径优化模型及其算法研究

物流不仅是能源消耗大户,同时也是CO2排放的重要来源。在分析配送车辆燃油消耗和CO2排放因素的多种车辆类型车辆路径问题特点的基础上,构建其相应的优化模型,并给出基于遗传

期刊

物流能耗CO2排放车辆路径优化模型遗传算法

新冠肺炎疫情下综合医院生物样本保藏的防范措施和建议

为在新冠肺炎疫情下,医院样本库可以安全开展样本制备和存储工作,某综合医院样本库从环境、设备、人员、规范操作、出入库管理5个方面制定了一系列防控举措,包括日消毒、人员

期刊

新冠肺炎样本保藏防控措施COVID-19BiobankingPrevention and control

不同狭窄程度下冠状动脉微循环阻力对心肌缺血的诊断价值

目的基于血流动力学原理,构建冠状动脉个性化三维模型,研究不同狭窄程度下冠状动脉微循环阻力对心肌缺血的诊断价值。方法回顾性选取2018年1~10月于首都医科大学附属北京友谊

期刊

心肌缺血冠状动脉微循环阻力冠状动脉狭窄冠状动脉增强扫描心肌灌注显像Myocardial ischemiaCoronary microcirculato

面向Hadoop的小文件存储机制研究

其他学术论文