基于HDFS平台的海量小文件存储与访问优化策略研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:dabei008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于近年来大数据技术发展迅猛,使得数据量呈井喷式的增长。这对数据的存储与访问技术来说是极具挑战性的难题。为了应对这种情形,许多大数据处理系统应运而生。目前,Hadoop分布式文件系统(HDFS)作为个中翘楚,具有高容错度、高扩展性、高吞吐量和高可靠性的特点,成为了业界和学术界最为流行的分布式文件存储系统。然而,由于本身的架构特点和其特有的读写机制所限,HDFS仅在超大文件的读取和访问上表现良好。在应对海量小文件场景时却有着天然的不足:1)HDFS的主从式的系统架构和以数据块的形式存储文件的存储机制,使得其在存储大量小文件时,会给系统主节点带来巨大的内存消耗,从而降低文件的存储效率;2)频繁的文件访问操作将对元数据管理节点和数据存储节点磁盘造成较大的访问压力,使文件的访问效率降低。在已有的研究当中,解决HDFS平台小文件存取效率问题的主要思路有:对于存储效率的提升,通过采用合并存储的方式,达到减少文件个数的目的,从而缓解主节点的内存压力;对于访问效率的提升,通过为HDFS的架构增设缓存机制,以减少节点间通信时间开销,提升访问效率。本文在前人的研究基础之上,展开了对HDFS中小文件存取效率优化的方法与技术的研究,旨在进一步地提升小文件在HDFS平台中的存储与访问的效率。主要贡献如下:(1)设计并实现了基于文件相关度和文件分布的小文件合并存储策略与机制。首先总结了影响文件合并存储质量的两个因素:文件之间的关联程度和文件合并后的大小分布。通过对海量的文件访问日志进行分析,进而得出文件与文件之间的关联关系,使文件之间的相关程度得以被量化;在对小文件进行合并存储的过程中,通过对量化后的相关度和文件大小分布进行综合考虑并加以权衡,使得合并存储后的小文件有着良好的空间局部性和相对较少的文件个数,从而提升了小文件的存取效率。(2)设计并实现了基于文件驻留价值的小文件缓存分层策略与机制。通过将小文件的大小、访问频次、相关性和时间衰减因素进行综合考虑,定义了当前文件之于缓存的驻留价值,为缓存替换提供了判断依据;通过提出逻辑上的缓存空间的分层机制,并设计了缓存数据项的结构,使缓存替换所带来的时间开销降低,使得文件访问操作得以更高效地执行。(3)为HDFS架构增设服务节点,以实现存储与访问的优化功能。并对优化后的小文件存取功能进行了一系列的性能测评。实验结果表明,经由本文优化后的HDFS系统在小文件的存储和访问两方面的效率均有了明显的提升。
其他文献
伴随着我国经济社会发展和事业单位分类改革工作的推进,全国地勘行业迎来了事转企的改革高潮。X省地矿集团作为地勘单位改革的一面旗帜,在地勘单位体制改革中走在了全国前列。但其原有的人力资源管理体制陈旧、效能不高,在体制改革过程中对人力资源管理变革的重视程度不够,绩效管理问题重重,已经不能适应转企后单位改革发展的需要。如对绩效管理缺乏认知、考核指标设置不合理以及员工参与度低等,尤其是在目前地勘行业进入衰退
随着云存储和大数据等技术的迅猛发展,各行各业越来越多的数据都存储在云端。而存储在云端的海量数据中,有大量的数据是重复数据,这就造成了宝贵的存储空间的浪费。为了减少
NFSR(非奇异反馈移位寄存器)是一类广泛应用于通信和密码算法中的寄存器。圈结构是用来刻画NFSR状态图的一种常用的表述方式,即该NFSR可以生成多少个圈以及每个圈的圈长是多
研发费用加计扣除政策普遍被认为是一项能引导企业加大研发投入的税收激励政策,然而各项研究表明政策的实施效果有待继续提高。企业执行政策所发生的成本被认为是政策失效的
钦州白话是广西粤语方言的代表之一,含有丰富的量词。而量词研究作为词汇研究的一个热点,不仅能帮助观察词类的语义功能,还有助于从中探索句法功能及量词本身的演变与发展。从笔者收集到的文献来看,钦州白话方言的量词研究甚少,缺乏系统的描写和研究。因此,对钦州白话的量词展开系统性的研究具有重要的学术参考价值。有鉴于此,论文拟通过田野调查来记录钦州白话的量词及相关语料,运用语义学、句法学和类型学等相关理论和方法
当前,随着全球一体化进程的不断加深,市场竞争环境日益激烈,金融产品及服务同质化严重,加上第三方移动支付快速普及以及互联网金融的创新冲击,我国商业银行均积极谋求变革转
随着个人消费需求的智能化,位置信息日益彰显其重要性,安全的位置验证必不可少。目前,针对位置密码学的研究已经取得了大量的成果,但是,如何以区域为凭证信息,设计基于区域的
校企合作,对高职院校来说有着重大的现实意义,影响着高职院校办学的质量和前途。高校的管理工作也属于公共管理的范畴。无论发达国家还是发展中国家,都将校企合作摆在了职业
目前专家检索的方式无法分析文本中的语义结构信息。通过作者主题模型挖掘文档中的作者与词项的关系,建立了文档、作者、主题和词项的关系,打破了文档模型专家与查询独立的假
子空间聚类方法作为数据挖掘中的重要内容,在高维数据集的处理过程、数据点之间的相似度以及聚类效果中有着重要的影响。它们在文本分析、机器学习、生物分析等领域都有众多