基于HDFS的小文件聚合策略与性能优化研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:rhetthusida
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、大数据领域的发展,对分布式系统的应用与要求越来越多,面对的应用环境也越来越复杂。Hadoop分布式系统是当前主流的分布式系统之一,在科研及商业领域已经有了非常广阔的应用,简单而实用的设计与开源的特点使它成为当下优秀的大数据处理平台之一。但是Hadoop系统中的文件系统对海量小文件的支持有不足之处,海量的小文件可能使管理节点的压力过大,甚至导致系统瘫痪。本文对基于Hadoop的文件系统进行J了改进,使其支持海量小文件的存储管理并且具备高性能的缓存与预取机制。本文的研究内容分为聚合小文件与索引建立,系统元数据与数据的缓存与预取两部分。在聚合小文件的过程中,定义了逻辑文件名的概念,以更好的表述小文件之间的相关性,并使用了在定制约束下改进的基数排序使得聚合的小文件具有局部相关性。参考Hadoop归档技术的原理,设计了高效的聚合小文件的索引机制。从而解决了 Hadoop系统对于海量小文件的支持缺陷这一问题。在系统元数据与数据的缓存与预取机制研究部分,根据聚合的相关性与索引设计,在分布式的存储节点设计了特定的元数据缓存,在客户端使用了合理的缓存管理结构与预取管理结构。并且提出了一种基于Hadoop的面向字节的存储块内动态数据预取算法。缓存与预取机制的设计与小文件聚合与索引建曲立的设计相辅相成,使系统具有有效的元数据缓存能力与高效的数据预取功能,并且具有通用的平台特性,易扩展性,大小文件兼具的存储能力,以及高效地访问性能。本文设计了基于HDFS改进的分布式文件系统,并且通过仿真模拟实验,将其所与源生HDFS、使用归档的HDFS进行对比,证明了本文提出的小文件聚合策略的有效性以及配套的缓存与预取机制的高效性。
其他文献
叠后声阻抗反演使用的是多次叠加之后的地震资料,削弱了地震资料反映储层特征的能力,通过叠后反演只能得到PP波阻抗等岩性参数,限制了对于地层岩性和流体的研究。叠前反演技
目前,大数据不断发展,数据平台上有众多的不同的类型的数据文件,而随着网络的普及和发展,数据文件在网络上的传输也变得越来越频繁,信息网络在为人们提供方便的同时也带来了
非零温度和(或)化学势下强相互作用物质的性质是粒子物理的热点课题。人们推断量子色动力学(QCD)的相图具有丰富的内容,比如存在强子相、夸克胶子等离子体相(QGP),以及各种颜
超声波水泥胶结质量评价测井是目前较为广泛使用且能有效地评价固井施工质量的方法之一。斯伦贝谢(Schlumberger)公司最新推出的固井质量评价仪器Isolation Scanner将传统的
量子色动力学(QCD)是描述夸克胶子强相互作用的理论,它在高能区是非常成功的。然而,在真空中夸克和胶子被禁闭在强子中。由于耦合较强,所以QCD不能微扰地使用。人们希望在足
随着移动终端设备数量的爆炸性增长,用户上网观看高清视频、上传和下载文件等需求越来越普遍,从而网络面临高带宽、低时延、低能耗以及高吞吐量等挑战。然而传统无线接入网由
作为基于位置服务(LBS)的核心应用,面向LBS的推荐系统(RSs)已经引起了学术界和工业界的极大兴趣。推荐系统通过分析用户已访问过的兴趣点(POIs)分布,帮助用户从浩瀚的信息中
员工的满意度体现了企业的经营发展模式,员工也是企业的第一生产力,对企业的生存和发展起着至关重要的作用。目前石化企业的生产存在着管理水平较低,生产效率不高等问题,在供
随着第四代移动通信网络的成功商用,当今移动互联网的数据业务流量成爆炸性增长趋势,同时移动运营商的运营维护成本也随之激增,基于蜂窝型架构传统网络越来越难以适应未来网
由量子理论知,对处于相干叠加态的量子系统进行幺正演化时,不同的状态之间会产生量子干涉。这种干涉效应可以显著地改变介质的光学特性,并且带来许多有意思的光学现象,比如电