小文件存取优化方法的研究与应用

来源 :东华大学 | 被引量 : 4次 | 上传用户:zhenmafanwokao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的提高和互联网飞速发展,企业和个人数据出现爆炸式增长。研究调查预测到2020年全球数据量将达到35ZB。大数据时代已经来临,传统数据存储方式已经无法满足大数据时代的海量数据存储需求,而以HDFS为代表的分布式文件系统凭借其高可靠性、高可扩展、高容错性、低成本等特点为大数据时代的海量数据存取提供了全新的模式。然而,HDFS在处理小文件时存在存取效率低,元数据信息存储消耗内存大以及系统数据冗余度高等问题。因此海量小文件的存储方法的研究与优化成为国内外研究的热门之一。本文对HDFS分布式文件系统进行了全面分析,并介绍了重复数据删除技术,同时分析了基于HDFS系统存储海量小文件时存在的不足。针对网络中的存在大量的小文件及重复数据,分别采用了相应的的处理策略。本文的主要研究内容和创新点如下:(1)提出基于相似度的小文件合并算法。首先设计了提取文件关键字策略,对文件的关键字利用汉明距离进行相似度计算,将相关的小文件合并成大文件上传到HDFS上;结合小文件合并方案,对小文件的元数据结构、存储位置进行了分析,同时,对小文件的读写操作流程进行了详细的设计,有效地减少了系统的I/O操作,缓解了Name Node存储元数据的压力,间接地增加系统的存储容量。(2)针对系统中存在数据高度冗余问题,本文在基于TTTD算法的基础上提出了IOTD优化算法,可以明显地减小文件分块大小的不确定性,提高数据去重率,同时为了加快数据去重中查询索引表的速度,引入RUH表,通过Map Reduce编程模型将索引表中最近访问最多的数据块信息放到RUH表,达到减少查询索引表时间的目的。实验结果表明,本文提出的方案在有效减少Name Node的内存使用率,及系统存储冗余数据的同时加快了小文件存取的效率,大大提升了小文件的管理性能。
其他文献
主元分析作为一种多元统计分析方法,广泛应用于数据处理和简化中。这种方法试图通过对数据协方差矩阵进行对角化,从而找到数据中最主要的元素和结构,去除噪音和冗余,对原数据进行
由于受成本的制约,传感器节点的能量、处理能力、存储能力都十分受限。因此,无线传感网路由算法的首要目标是节能,算法也不能有太高的运算复杂度和空间复杂度,运行在传感网上
或许在未来的20年里,WebService将会成为软件开发领域最热门的话题,随着WEB2.0的迅速普及,如何利用好WebService这一新技术就成为一个非常重要的课题。   尽管SOA(ServiceOri
相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用。相似度的度量方法有多种,包括Jaccard相似度,Cosine相似度,Dice相似度和Hamming距离等。本文中主要
随着Android智能手机的普及,其系统安全问题越来越受到人们的重视。普通用户日常使用Android手机时问长,系统内通常会储存重要文件和隐私信息。相对于传统桌面设备,用户行为
企业以项目管理为主线,为参与项目活动的所有干系人提供了信息共享的平台,并全面记录和控制各项经营活动,达到项目管理要管理一切事和人的目的,提高管理工作效率。本文系统就是以
随着业务数据的积累,特别是网络数据的快速增长,利用科学的手段快速处理数据,从多个不同的角度分析数据的需求不断增长。多核CPU,以及多核CPU集成GPU硬件架构的出现为快速处
随着科技技术的快速发展,越来越多的领域采用信息技术进行相应的操作和数据管理。此方式与以往的数据处理相比,简化了操作,提高了工作效率,但是随着信息化的不断推进,数据的
IP网络的迅速发展使其成为当今人们通信的主要基础设施,随着IP网络规模快速地扩大,传输速率日益增长,网络结构愈加复杂,这就需要对我们对IP网络的性能和行为进行测量,对IP网
随着国内各大医院信息化建设进程的不断发展,各类临床信息系统为医院积累了丰富的临床数据资源。临床数据中所包含的海量医疗活动信息,不仅是医疗、教学、科研的第一手资料,