论文部分内容阅读
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储内存,对于恶意攻击和数据恶意窃取几乎没有防御措施等。本文使用基于分片聚合编码的存储策略对HDFS数据存储的冗余率问题、安全性问题、数据私密性问题进行解决。分片聚合编码的存储策略具有很强的研究价值和实用价值。
本文首先分析了原HDFS存储中存在的问题,并依据这些问题提出了分片聚合编码的存储策略。分片聚合编码操作分为分片、编码、聚合三个不同的步骤进行:分片操作将文件分为大小相同的原数据片;编码操作对一组原数据片采用STAR码进行编码处理,产生编码数据片,这一组原数据片和编码数据片称为一个数据段;聚合操作将每个数据段中相同位置的数据片聚合组成一个存储数据块。然后,在分片聚合编码策略的基础上本文实现了基于分片聚合编码的HDFS文件存储。在文件存储过程中,系统对文件中的一组数据采用分片聚合编码操作后,采用均匀分布的分布原则将存储数据块分布存储在系统的存储结点上。同时本文对分片聚合编码操作中涉及到的数据片的大小及一组原数据片的数量进行了分析讨论,选择了适合系统的一组较优的数据片大小及数量。最后实现了分片聚合解码的数据块动态恢复和数据块持久性恢复。在文件读取过程中,数据块动态恢复通过对读取失败的数据块所在组的其他可用数据块采用分片、解码和聚合操作,对读取失败的数据块进行恢复。对于存储在系统中的数据块失效的情况,数据块持久性恢复基于均匀分布的数据块分布原则,重新为失效数据选择新的存储结点,然后在新的存储结点对失效数据块进行恢复。改进后的系统与原系统相比,分片聚合机制保证了数据的私密性,编码机制在保证系统容错率的前提下,降低了数据的冗余率,增强了系统的可靠性,均匀分布的数据块分布策略在一定程度上降低了机架故障和存储节点故障对数据可靠性的影响。改进系统与原系统相比整体性能得到了很大的提高。