论文部分内容阅读
在大数据时代的背景下,数据本身的价值越发突出,云存储作为一种海量数据存储模式,已成为当今热门的研究点。基于Docker容器的HDFS(Hadoop Distributed File System,分布式文件系统)集群以其对数据存储的高吞吐,集群快速部署以及可运行在廉价设备上受到诸多研究者的关注。但集群存在数据存储可靠性问题,因此需要对数据持久化技术以及数据副本放置算法进行相应的优化研究。同时,HDFS集群的数据块备份可在一定程度上保证数据存储安全,但对云环境中的多类型数据则无法有效地进行灵活备份,应根据不同种类的数据在云环境中的存储需求进行相应的调整,因此需要对数据划分算法以及备份策略进行相应的优化研究。本文针对于HDFS在云环境下的存储优化技术研究,主要做了以下三个方面的工作:首先,针对基于Docker容器的HDFS集群所存在的数据存储可靠性问题,基于数据卷与数据卷容器提出了数据持久化技术,在容器化的HDFS集群之间实现数据共享及数据持久化。该持久化的数据包括了集群所存储的各类数据以及各个Hadoop集群节点的元数据。同时,提出了基于HDFS的数据存储副本放置算法,在进行数据块存储备份时,综合考虑宿主机以及容器节点性能,在减小节点之间的可用存储空间差异性的同时,提升基于Docker容器的HDFS集群数据存储的可靠性。实验结果表明,数据持久化技术与数据存储副本放置算法能够有效的对集群数据进行迁移并提升集群的I/O性能,同时数据存储可靠性也得到极大的提升。其次,针对于HDFS集群的单一备份策略问题,使用基于Federation HDFS的存储架构代替传统的HDFS集群,对于经过数据划分算法所划分完的数据,在该存储架构中使用多种存储策略对其进行存储。同时提出了适用于大数据环境的数据划分算法,以KNN为基础,通过二次权重的方式对数据特征与距离进行赋值,保证数据划分的效率与准确性。实验结果表明,该算法能够有效的提升数据划分的准确度与效率,并且基于Federation HDFS的数据存储架构能够在实现灵活存储备份的同时减小存储空间的浪费,做到有效的数据存储。最后,针对以上所提出的存储问题解决方案进行了原型系统设计与实现,分别在数据存储可靠性、数据存储内存、数据I/O存取以及数据备份四个方面进行了描述,系统测试结果表明,基于Docker容器的HDFS集群数据持久化技术与数据存储副本放置算法能够保证数据的持久化存储,并提升数据的I/O性能;基于KNN的数据划分算法与Federation HDFS集群架构能够有效的保证数据的灵活备份存储,提升存储空间的利用率。