论文部分内容阅读
随着Internet的飞速发展,传统的技术架构在处理海量数据方面显得越来越乏力。Hadoop作为一种能够对海量数据进行高效地分布式处理框架,由底层HDFS文件系统和上层MapReduce编程模型构成;采用主从式架构设计模式的HDFS文件系统在单名称节点方面的设置简化了文件系统的结构,然而也产生了小文件存储效率低的问题。针对Hadoop在处理小文件时存储效率低下和大量的小文件给MapReduce处理带来的超负荷,本文提出基于归档文件技术和序列文件技术解决Hadoop小文件问题,基本思想是通过将小文件合并后分块存储,然后建立小文件到大文件的映射。本文对Hadoop小文件的优化处理方案进行了系统的测试,建立不同的测试用例,包括直接读取小文件和读取合并后的小文件,通过比较直接从本地文件系统和HDFS文件系统上传文件的时间、合并前后访问文件的时间和读取文件时系统的内存占用率,验证了本文设计的方案适用于MapReduce计算模型,可以提高小文件随机访问的效率。