Hadoop小文件处理技术的研究和实现

被引量 : 0次 | 上传用户:zhangzhubin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的飞速发展,传统的技术架构在处理海量数据方面显得越来越乏力。Hadoop作为一种能够对海量数据进行高效地分布式处理框架,由底层HDFS文件系统和上层MapReduce编程模型构成;采用主从式架构设计模式的HDFS文件系统在单名称节点方面的设置简化了文件系统的结构,然而也产生了小文件存储效率低的问题。针对Hadoop在处理小文件时存储效率低下和大量的小文件给MapReduce处理带来的超负荷,本文提出基于归档文件技术和序列文件技术解决Hadoop小文件问题,基本思想是通过将小文件合并后分块存储,然后建立小文件到大文件的映射。本文对Hadoop小文件的优化处理方案进行了系统的测试,建立不同的测试用例,包括直接读取小文件和读取合并后的小文件,通过比较直接从本地文件系统和HDFS文件系统上传文件的时间、合并前后访问文件的时间和读取文件时系统的内存占用率,验证了本文设计的方案适用于MapReduce计算模型,可以提高小文件随机访问的效率。
其他文献
文章利用移动互联网+技术,根据烟草商业现状,从实用、好用、管用角度出发,设计构造烟草商业市场化的移动信息系统,支撑烟草商业未来获利空间。
感情移入培养与幼儿亲社会行为关系的实验研究李百珍一、实验目的亲社会行为(prosocialbehavior)是指人们在社会交往中表现出来的谦让、合作、帮助、共享、抚慰、礼貌等有利于他人和社会的行为。
针对目前航空公司旅客细分工作不够精细的问题,在分析传统RFM模型的基础上,提出一种TCSDG模型来描述旅客行为偏好。根据旅客的行为偏好对旅客进行细分,将具有相同行为偏好的
文章介绍了硫化铁性质、危害、形成机理、自燃原因分析及影响硫化铁自燃因素,深入分析处理厂检修及作业区清管时发现硫化铁黑色粉末并发生自燃现象,分析了榆林南区集输管道出
为进一步界定和构建安全社会学的研究对象和学科体系,在提出"人的安全"内在三维(生命-心理-权利)和外在三维(事/物-环境-系统)的基础上,围绕安全-社会的关系以及社会学"行动-
本文的课题来源于国家科技重大专项课题“泛在网络下多终端协同的网络控制平台及关键技术(2011ZX03005-004-03)”。通过综合运用通信技术、嵌入式技术、界面编程技术和数据库技
目前,金属材料的化学成分及结构状态常采用光谱仪进行分析。电感耦合等离子体光谱分析仪是20世纪60年代发展起来的一种新型分析仪简述了电感耦合等离子光谱分析仪的工作原理,
<正>我国不仅是世界上最大的煤炭生产国和消费国,也是最具影响力的煤炭出口国。随着世界煤炭贸易的增长,世界煤炭贸易格局正在发生深刻的变化。中国、印尼等国在过去几年都大
上海水资源量来自当地径流、可开采地下水、过境水3个方面,对其水量在时间、空间的分布情况作了详尽介绍,并从骨干河道和湖泊、太湖流域、黄浦江及上游支流、长江河口水等方