【摘 要】
:
作为日趋成熟的分布式系统,Hadoop拥有强大的海量数据存储与分析处理能力,在许多公司的应用之中都有良好的表现。本文所研究的HDFS(Hadoop Distributed File System)是Hadoop
论文部分内容阅读
作为日趋成熟的分布式系统,Hadoop拥有强大的海量数据存储与分析处理能力,在许多公司的应用之中都有良好的表现。本文所研究的HDFS(Hadoop Distributed File System)是Hadoop的重要组成部分之一,它被设计用来以流式数据访问模式存储大文件,非常适合用来对大数据集进行分析。然而许多实际应用场景要求存储和处理大量的小文件,这并不是HDFS所擅长的。在小文件量急剧增长时会出现以下问题:名称节点内存大量被消耗,成为系统瓶颈;访问大量小文件效率低下;mapreduce时浪费系统数据处理资源。因此如何将Hadoop应用到小文件场景成为亟待解决的问题。本文通过分析发现了解决问题的关键所在:一方面需要减少文件数量,另一方面需要减少客户端在存取文件时与名称节点的交互次数。根据这样的思路,首先,本文通过将小文件合并成大文件,将合并文件整个存入文件系统的方式来减少名称节点需要维护的文件元数据信息的数量,借此缓解名称节点内存压力;之后本文利用B+树查找速度快、元素按序排列的优势,以B+树为结构基础在名称节点上建立索引来维护小文件与其所在合并文件的对应关系,同时对原始的B+树加以改进,使获取所请求文件信息时能够将与其上传时间相关或存储位置相关的其他文件索引信息一同获取,利用这些预取的索引信息,再次访问时先从本地查找索引信息,若命中则可以直接根据该信息从名称节点请求数据,从而减少访问名称节点索引的次数,提高读取效率;最后在客户端读取文件时将小文件所在数据块预取到本地,并建立索引维护本地数据信息,再次请求文件时若文件已被预取到本地就不需要再向名称节点请求文件,从而进一步减少访问名称节点的次数。之后,本文搭建了Hadoop集群,并将上面的设计方案在该集群上进行了实现,并对试验中名称节点的内存以及读写速率等性能进行了测试。经试验表明,与原始的HDFS相比较,本文提出的改进方案在内存消耗和文件访问效率方面均有不错的提升。
其他文献
摘 要:新媒体平台的出现,为政府部门政务信息的民主化公开提供了一个即时、互动的窗口。随着政务微博的数量呈现爆炸式增长,它的可持续发展将遇到前所未有的挑战。当前政务微博在发展过程中遇到不少问题,其形象构建亟待被重视。本文将从政务微博的现状、形象构建基础、典型案例启示这三方面进行初步探析。 关键词:舆论引导;形象构建;公信力 中图分类号:G206.2 文献标识码:A
截止6月底,瑶岗仙钨矿完成采掘总量147750t,其中采矿94059t、掘进4692m,分别为年计划的64%、59%、65%,同比提高了5.6%、7.18%及9%;完成出矿1247Xi、钨精矿885t,分别为年计划的56.7%、70%,同比提
云计算的发展提高了大数据处理的效率和降低了用户的成本,但这种发展受到了数据隐私保护的严重阻碍。基于密钥共享技术或全同态加密技术因代价大、效率低,不适用于云计算环境
矿山主井绞车采用阻容保护效果好近几年,兖州矿业(集团)公司杨村煤矿对低频拖动的主井绞车采用了增设阻容的方法,成功地解决了该矿主井提升系统中长期存在的一些问题,为使用国产低
近年来,跌倒已经成为对老年人的健康构成威胁的最危险的情形之一,特别是对于那些独自生活的老人来说尤为严重。当老人跌倒之后,他们很难独自站立起来,这就延缓了得到及时治疗
随着生物信息学和计算机技术的发展,基因调控网络的研究越来越受到研究人员的重视,特别是基因芯片技术的发展,产生了大量的基因表达数据和生物大分子数据图谱,这为研究基因调
对简单图G=(V,E),F是G的点(或边)子集,如果由VF(或EF)导出的子图不含圈,则称F是G的反馈点(或边)集。记fv(G)(或fa(G))为所有反馈点(或边)集的最小的阶数,称为G的反馈点(或边)数。
随着嵌入式系统越来越复杂,数据处理量成几何级增长,尤其在航空航天、工业控制、医疗、通讯等重要领域中,嵌入式系统的实时性和可靠性就显得尤为重要。本文基于嵌入式VxWorks
21世纪是海洋世纪,各国已将开发海洋资源、加强海洋勘测用于解决陆地资源日渐枯竭的主要途径,海洋已经成为各个国家着眼并着手的下一个开发之地。目前,全球性海洋开发的步伐,