面向Hadoop的小文件存储机制研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:qwer2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Hadoop是当前流行的大数据处理平台,因其高扩展性、高可靠性等优点得到业界广泛应用。Hadoop的核心组件HDFS(Hadoop Distributed File System)可高效存储超大文件,具有高容错、高吞吐量等特性。然而HDFS存储海量的、体积远小于数据块大小的文件时,却会由于HDFS访问特性和元数据管理模式等因素,引发“小文件问题”,即表现为:(1)客户端需频繁跳转数据节点存取小文件,文件读写性能差;(2)集群运行时,名字节点将全部元数据载入内存管理,但内存有限难以管理海量小文件元数据;(3)名字节点启动时加载海量元数据耗时久,造成集群长时间不可用。随着互联网中图片、日志等小文件的日益增多,Hadoop常要存储或处理大量小文件,如何研究解决Hadoop小文件问题,受到了学术与工业界的持续关注。现有研究成果主要通过将小文件聚集成大文件,减少文件和元数据数量,从而缓解名字节点内存压力,实现存储大量小文件的目标。但是,现有方案存在小文件跨块、块空间浪费等问题,并由于牺牲了小文件元数据,造成HDFS无法直接对小文件执行目录命令、访问控制等文件系统管理操作。本文针对小文件访问和小文件元数据管理两方面展开研究,综合解决Hadoop平台小文件问题。针对海量小文件读写性能差的问题,本文提出一种海量小文件多级优化存储方法。该方法首先采用均衡合并队列算法,将小文件合并为数据块体积的大文件,充分利用块空间并避免小文件被跨块存储,减少存储文件时的节点跳转,提高写入速度。其次通过布隆过滤器与文件映射索引,结合预取缓存策略,缩短读取文件的查询和传输时间,提高读取速度。仿真实验验证,该方法能提供高效的小文件读写性能。针对名字节点难以管理海量小文件元数据的问题,本文提出一种基于日志合并树与扁平目录的元数据管理方法,弥补已有方案在小文件元数据管理上的不足。首先设计了一种基于日志合并树和内存映射文件的元数据存储组件,将名字节点管理元数据的位置由内存转移至磁盘,提高元数据管理规模。其次对目录与元数据进行扁平化处理,名字节点无需重建树形目录,缩短其加载和访问元数据的时间。仿真实验结果表明,该方法可实现高吞吐的元数据操作性能,能达到数倍于原始HDFS的元数据管理规模。
其他文献
以AC-16沥青混合料为试验对象,采用改进型硅藻土改性沥青作为胶结料,通过路用性能试验,验证不同改进型硅藻土掺量下沥青混合料的水稳定性能和高温稳定性。试验结果表明:改进型
传播是一种符号信息的流动。信息科技的进步,使得新闻信息交流日益频繁.传递方式日益丰富多样。传统媒体与网络媒介之间的竞争与融合.构成现代文明社会信息流“英雄交响乐”的主
文章以江西省的产业结构和就业结构为基础,试图描述江西省服务业就业增长的整体态势和行业结构。文中从就业率和就业弹性两个方面描述江西省服务业就业增长的整体态势,并深入服
目的探讨对冠心病并发抑郁焦虑患者采用柴胡龙骨牡蛎汤加减治疗的临床应用效果。方法随机选择我院2015年12月~2018年12月收治的冠心病并发抑郁焦虑症患者98例,按照电脑随机选
为推动风力发电技术的发展及应用,交流国内外风力发电技术发展状况及其应用研究成果,探索风力发电技术进步和创新。根据风力发电技术专业委员会决议,拟于2015年7月份在哈尔滨召
针对现有冷却器控制方式的不足,基于热电类比理论建立了变压器热路模型,结合环境温度及冷却方式变化时模型参数的不同求取方法,制定了高效节能的冷却器运行策略。在准确计算
物流不仅是能源消耗大户,同时也是CO2排放的重要来源。在分析配送车辆燃油消耗和CO2排放因素的多种车辆类型车辆路径问题特点的基础上,构建其相应的优化模型,并给出基于遗传
为在新冠肺炎疫情下,医院样本库可以安全开展样本制备和存储工作,某综合医院样本库从环境、设备、人员、规范操作、出入库管理5个方面制定了一系列防控举措,包括日消毒、人员
目的基于血流动力学原理,构建冠状动脉个性化三维模型,研究不同狭窄程度下冠状动脉微循环阻力对心肌缺血的诊断价值。方法回顾性选取2018年1~10月于首都医科大学附属北京友谊