基于分片聚合编码机制的HDFS文件存储研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:wangtian575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
HDFS是Hadoop的旗舰级分布式文件系统,是云存储的基础架构。HDFS采用了完全复制的存储方案,该存储方案下的数据存储占用较多的存储空间,数据块-存储节点映射信息占用较多的存储内存,对于恶意攻击和数据恶意窃取几乎没有防御措施等。本文使用基于分片聚合编码的存储策略对HDFS数据存储的冗余率问题、安全性问题、数据私密性问题进行解决。分片聚合编码的存储策略具有很强的研究价值和实用价值。   本文首先分析了原HDFS存储中存在的问题,并依据这些问题提出了分片聚合编码的存储策略。分片聚合编码操作分为分片、编码、聚合三个不同的步骤进行:分片操作将文件分为大小相同的原数据片;编码操作对一组原数据片采用STAR码进行编码处理,产生编码数据片,这一组原数据片和编码数据片称为一个数据段;聚合操作将每个数据段中相同位置的数据片聚合组成一个存储数据块。然后,在分片聚合编码策略的基础上本文实现了基于分片聚合编码的HDFS文件存储。在文件存储过程中,系统对文件中的一组数据采用分片聚合编码操作后,采用均匀分布的分布原则将存储数据块分布存储在系统的存储结点上。同时本文对分片聚合编码操作中涉及到的数据片的大小及一组原数据片的数量进行了分析讨论,选择了适合系统的一组较优的数据片大小及数量。最后实现了分片聚合解码的数据块动态恢复和数据块持久性恢复。在文件读取过程中,数据块动态恢复通过对读取失败的数据块所在组的其他可用数据块采用分片、解码和聚合操作,对读取失败的数据块进行恢复。对于存储在系统中的数据块失效的情况,数据块持久性恢复基于均匀分布的数据块分布原则,重新为失效数据选择新的存储结点,然后在新的存储结点对失效数据块进行恢复。改进后的系统与原系统相比,分片聚合机制保证了数据的私密性,编码机制在保证系统容错率的前提下,降低了数据的冗余率,增强了系统的可靠性,均匀分布的数据块分布策略在一定程度上降低了机架故障和存储节点故障对数据可靠性的影响。改进系统与原系统相比整体性能得到了很大的提高。
其他文献
在社交网络中,存在着大量的节点信息,同时又存在着数量更为巨大的节点间的联系。由此基于社交网络的分析和挖掘成为一个热点研究内容,并从社交网络中发现了更多有价值的信息和知
信息数据量的爆炸式增长使得存储设备的容量越来越大,如何有效地进行存储管理成为备受关注的问题。云计算的快速发展给存储技术带来了巨大挑战。云计算系统规模庞大,存储设备高
片上多核处理器系统已经成为处理器发展的主流趋势,针对此类系统的并行程序的运行时优化成为当前研究中的热点。并行线程调度优化已经成为提高系统资源利用率的关键之一,而传统
大学课程中物理实验是理工类院校提供综合性很强的实验能力培养课程,是学生对科学实验开展基本训练的基础课程和必修课程,同时也是培养大学生科学的严谨的实验操作能力、提升科
在当前互联网应用激增的背景下,基于Web的应用系统软件在社会生活的各个领域都得到了广泛的应用。政府和企业为提高工作效率、节省工作成本,将信息化建设作为重点工作内容,投入
网格作为一种新的计算能力,它可以对分布的、异构的资源进行共享及选择,并且能够解决大规模的计算问题,比如科学和商业上的,因此被越来越多的人所重视。网格技术是近几年新兴
随着网络存储系统中的信息量的爆炸式增长,系统的存储容量需求日益提高。而随着海量存储系统中的磁盘数目越来越多,由磁盘故障所引起的数据丢失的可能性也越来越大,系统的可靠性
目前DB2数据库技术作为信息系统的核心技术得到了不断的发展和完善。随着企业内的数据总量正在呈指数级增长,数据库系统的性能逐渐遇到了瓶颈,如何在有限的资源条件下提高数据
随着计算机和通信技术的高速发展,计算机网络在人们的工作和生活领域正在迅速普及,许多企业和组织为了充分利用和共享网络中的资源,都将自己的内部网络与互联网连接。但随之
医疗数据因其自身具有独特的异构性、海量性、复杂性及安全性等特点,在其采集与处理的过程中会产生许多不完整、不一致的“脏数据”,从而影响了对这些数据的分析及利用。目前