基于HDFS的海量小文件读写策略研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:xb08888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络信息技术与云计算技术迅猛发展,互联网内容由网站管理人员主导逐渐过渡为用户主导,这种变化使得人们可以随时随地通过互联网服务获取或者生成海量的数据,如何有效地管理这些个人或公共数据已成为当务之急。传统的存储架构在当前互联网数据存储场景中表现较差,且其扩展性差、数据安全性低、维护与管理成本高、灾备能力差等缺陷日益明显。将个人数据集中存储至云服务中统一管理的分布式云存储系统受到IT界的广泛关注,用户无需在本地持有大量的存储空间,只需要通过智能设备就能够便捷地获取到云端数据。这种分布式的云存取结构可以很好地解决上述问题,并且满足大规模用户并发访问的需求。Hadoop是一个可部署在廉价设备上的分布式开源平台,其核心之一的HDFS作为一种新型的云存储平台,能够很好地解决爆炸性数据的存储与管理难题。本文主要针对海量小文件读写这一场景,对分布式文件系统HDFS进行了详细分析,并关于HDFS存在的小文件问题、节点选择问题和读取缓存问题,提出了基于Redis集群的HDFS改进方案RCHDFS。首先,从基本系统组成与工作原理方面对GFS、MooseFS、HDFS等典型的分布式存储系统进行研究,分析HDFS系统的主要组件与依赖关系,深入研究了NameNode、DataNode、DFSClient的工作原理及对应源码实现。然后,通过对大量中外文献的分析与相关技术的研究,针对HDFS的固有问题,分析了已有的解决方案,随后提出了改进方案,分为3个部分。一是提出了在DataNode节点中部署Redis集群服务的方法,使得Redis服务可以承担大部分NameNode的管理任务,集群的内存使用可以均匀地分布在不同的DataNode节点上,缓解NameNode的内存消耗和NameNode并发压力;二是提出了基于节点处理能力和数据块在节点中分布均衡性的最优读写节点选择方法,优化了HDFS机架感知策略,既保证了数据块的均衡,又降低了文件读写时延;三是提出了基于混合缓存的中小文件读取方法,在Redis中缓存热点小文件,在Client端缓存中等文件元信息,进一步提升了海量文件的访问速度。最后,针对提出的RCHDFS与HDFS方案进行了测试对比。测试结果表明,本文提出的方案可以明显地降低海量小文件元数据信息的内存消耗,在并发性大量文件读写操作时可以有效地降低时间消耗,并且保证了所有块和文件元信息在节点中分布均衡。
其他文献
近年来,认知无线网络技术得到快速发展。在认知无线网络中,二级用户不断的探测可用的频谱,在不干扰主用户的情况下,机会的接入和使用频谱。路由和频谱分配作为认知无线网络最为重
学位
高光谱遥感技术已经成为遥感发展的前沿,并且在民用以及军用等多个领域发挥着极其重要的作用。高光谱图像的高分辨率、多波段数、窄波段宽度、大数据量在为人类带来巨大的研究价值的同时,也给高光谱图像的处理带来了巨大的挑战。多光谱图像的处理方法不再适用于高光谱图像处理,如何从高光谱数据中快速而准确的挖掘出所需要的信息,目前仍是一个亟待解决的问题。高光谱图像分类是高光谱应用中的核心技术之一,快速、高精度的高光谱
在这个信息高速发展的时代,伴随着有线网络的大规模应用,拥有着可移动性、灵活性、安装方便等优点的无线网络技术也在高速的发展着。无线局域网是计算机网络与无线通信技术相结
在多媒体检索中,基于哈希的相似检索是一种非常有效的跨模检索方法,已经得到了广泛的关注。跨模检索的核心问题就是怎样在多模态数据的不同特征表示之间构建相关性。跨模检索
目前因特网在全球范围内应用非常广泛,主要是基于TCP/IP协议连接着大量的通信设备。随着应用场景的不断拓展,网络技术已经应用到很多极端恶劣的环境,比如战场网络、星际网络
近年来,随着手机、电脑等多媒体设备个人拥有率的大幅提高,人们每天在网络中发布的图像和视频的数量以井喷式的速度在增长,而无法有效的管理和分类这些视频图像资源的问题也
时延可容忍网络(Delay Tolerant Networks, DTNs)是一种新型网络形态,它泛指那些由于节点移动、能量受限等原因而频繁出现连接中断、甚至长时间处于网络分离状态的一类无线网
随着用户需求不断提高,无线通信技术正在飞速发展,LTE-A技术以其高传输速率,高速移动性,高系统容量和覆盖面,小用户面延迟和低功耗等优势,成为新一代移动通信发展的主流技术
人脸识别是当前生物特征识别中的研究热点,提取稳定、可靠、区别于其它个体的特征是人脸识别的关键。其中基于子空间投影的特征提取方法,因其算法简单、识别高效而备受人们的
学位