基于HDFS的云环境数据存储优化技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wangmeiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代的背景下,数据本身的价值越发突出,云存储作为一种海量数据存储模式,已成为当今热门的研究点。基于Docker容器的HDFS(Hadoop Distributed File System,分布式文件系统)集群以其对数据存储的高吞吐,集群快速部署以及可运行在廉价设备上受到诸多研究者的关注。但集群存在数据存储可靠性问题,因此需要对数据持久化技术以及数据副本放置算法进行相应的优化研究。同时,HDFS集群的数据块备份可在一定程度上保证数据存储安全,但对云环境中的多类型数据则无法有效地进行灵活备份,应根据不同种类的数据在云环境中的存储需求进行相应的调整,因此需要对数据划分算法以及备份策略进行相应的优化研究。本文针对于HDFS在云环境下的存储优化技术研究,主要做了以下三个方面的工作:首先,针对基于Docker容器的HDFS集群所存在的数据存储可靠性问题,基于数据卷与数据卷容器提出了数据持久化技术,在容器化的HDFS集群之间实现数据共享及数据持久化。该持久化的数据包括了集群所存储的各类数据以及各个Hadoop集群节点的元数据。同时,提出了基于HDFS的数据存储副本放置算法,在进行数据块存储备份时,综合考虑宿主机以及容器节点性能,在减小节点之间的可用存储空间差异性的同时,提升基于Docker容器的HDFS集群数据存储的可靠性。实验结果表明,数据持久化技术与数据存储副本放置算法能够有效的对集群数据进行迁移并提升集群的I/O性能,同时数据存储可靠性也得到极大的提升。其次,针对于HDFS集群的单一备份策略问题,使用基于Federation HDFS的存储架构代替传统的HDFS集群,对于经过数据划分算法所划分完的数据,在该存储架构中使用多种存储策略对其进行存储。同时提出了适用于大数据环境的数据划分算法,以KNN为基础,通过二次权重的方式对数据特征与距离进行赋值,保证数据划分的效率与准确性。实验结果表明,该算法能够有效的提升数据划分的准确度与效率,并且基于Federation HDFS的数据存储架构能够在实现灵活存储备份的同时减小存储空间的浪费,做到有效的数据存储。最后,针对以上所提出的存储问题解决方案进行了原型系统设计与实现,分别在数据存储可靠性、数据存储内存、数据I/O存取以及数据备份四个方面进行了描述,系统测试结果表明,基于Docker容器的HDFS集群数据持久化技术与数据存储副本放置算法能够保证数据的持久化存储,并提升数据的I/O性能;基于KNN的数据划分算法与Federation HDFS集群架构能够有效的保证数据的灵活备份存储,提升存储空间的利用率。
其他文献
本文报道了一种经过粉碎→酶解→分离→提纯香菇中多糖及氨基酸方法。实验结果表明:香菇中各部分的营养成分存在差异,但采用复合酶提取法,由菇盖和菇柄所得提取物在营养成分上的
<正>2007年11月2日,第八届华罗庚数学奖颁奖仪式在北京举行。我刊主编、复旦大学教授、数学家李大潜院士喜获此项大奖!教育部副部长吴启迪、中国数学界泰斗吴文俊院士向李院
绿色建筑也称为生态建筑,有效利用能源,实现建筑工程的健康、环保,构建和谐人居空间环境。建筑施工中的工序会对工程质量造成影响,加强建筑工程管理具有重要的作用,可以确保
目的分析2018年1月~12月前来我院接受宫颈癌筛查的200例已婚妇女的筛查结果。方法由我院对本辖区内已婚妇女共200例进行宫颈癌筛查检查。结果生殖道感染发病率为40.96%,宫颈
目的:探讨轻度胃肠炎伴良性婴幼儿惊厥(BICE)的临床特点和预后。方法:对2010年3月-2012年3月在笔者所在医院住院治疗的24例BICE患儿进行临床分析,并进行2年以上随访。结果:24例患
谈谈承诺制任桂馥从实践证明,社会服务承诺制为纠风建设提供了一种有效的机制,是密切党群关系、维护人民政府形象、实现全心全意为人民服务的根本宗旨、推进社会主义精神文明建
目的:观察理气降逆、润肠通便类中药结合推拿对慢性功能性便秘的疗效。方法:采用润肠通便方(大黄、枳实、槟榔、炒莱菔子、火麻仁、白芍、当归、桃仁、甘草)结合推拿(中脘、天枢、
<正>1978年3月18日,中共中央在北京召开全国科学大会,迎来了我国科学技术发展的春天。回顾40年来我国科技事业发展历程,从"科学技术是生产力"到实施科教兴国战略,从建设创新
战国时期,赵国地处北边,东北同东胡相接,北边与匈奴为邻,西北与林胡、楼烦相连。周围的这些游牧民族长于骑马射箭,他们常以骑兵进犯赵国边境。赵武灵王即位的时候,赵国正处在国势衰
报纸
高含量的杂醇油是影响白酒品质的主要因素之一,降低白酒中杂醇油的含量是白酒生产的技术瓶颈。筛选产杂醇油酯化酶菌株,表达和改造酯化酶,构建高效酯化杂醇油的酯化酶。酯化