论文部分内容阅读
近年来云计算得到广泛的研究与应用,并迅速成为计算机领域最为热门的话题。云存储是在云计算概念基础上延伸和发展出来的一个新概念,其中又以Hadoop框架的HDFS存储系统最为著名。研究发现,网络中存在大量的重复数据,数据的重复存储会对空间造成极大浪费;而且小文件数量众多,加之读写请求频繁,所有的请求都由HDFS系统中唯一的NameNode进行处理,会导致整个系统性能急剧下降。论文首先对Hadoop系统架构及实现技术进行了全面分析,并介绍了重复数据删除相关技术,同时分析了HDFS在处理大量小文件时存在的不足,为论文的下一步研究提供理论依据。本文在传统HDFS体系架构的基础上,提出了一种新的HDFS体系架构,并对元数据管理和文件操作流程进行了设计。针对网络中存在大量重数据及小文件的问题,分别设计了相应的处理策略。本文的主要研究内容和创新点如下:(1)基于传统的HDFS提出了一种新的HDFS体系架构,即在每个机架新增一台NameNode负责本机架事务的处理。分析了主NameNode和机架内NameNode元数据缓存及恢复机制,并对文件操作的元数据获取过程进行了重新设计。(2)针对重复数据的问题,本文采用双重认证的方式。首先设计了关键词提取策略,对提取结果进行哈希计算,在此基础上结合文本相似匹配技术完成重复数据的判定。此策略避免了固定长度分块重复数据删除技术的弊端,对重复数据的判定更加智能化,在节省存储空间的同时加强了重复数据删除的准确性和科学性。(3)针对小文件的处理,结合小文件合并方案,对元数据的结构、缓存内容以及更新机制进行了分析。同时,对小文件读、写和删除操作流程进行了详细分析设计。由于将小文件进行合并,节省了系统存储空间,且机架内NameNode完成了本机架内大部分请求的处理,有效缓解了主NameNode负担,从而进一步优化了系统性能。根据设计方案,文章最后进行了相应的仿真实验,从实验结果可以看出,本文的设计在重复数据删除的准确性和科学性、小文件I/O速度及NameNode内存使用率与CPU使用率等方面的性能都有不同程度地提升,从而说明了设计的有效性和科学性。